情報推薦(推薦システム)に関する研究で利用することを想定し、アイテム(商品や映画等)とそれに対する評価情報がペアになっているものをピックアップしています。
<海外>
GroupLens Dataset
- http://grouplens.org/datasets/movielens/
 - 映画に対する5段階評価 (1-5)
 - 100,000 / 1,000,000 / 10,000,000 ratings
 - 1,000 / 6,000 / 72,000 users
 - 1,700 / 4,000 / 10,000 movies
 
データサイズは100k, 1M, 10Mの3種類が用意されている。
The Book-Crossing Dataset
- http://www.informatik.uni-freiburg.de/~cziegler/BX/
 - 書籍に対する11段階評価 (0-10)
 - 1,149,780 ratings
 - 278,858 users
 - 271,379 books
 
Yelp Dataset
- http://www.yelp.com/dataset_challenge/
 - 店舗に対する5段階評価 (1-5)
 - 229,907 reviews
 - 43,873 users
 - 11,537 shop/restaurants
 
面白いのは業績に対する賞金が充実していること。例えば査読付き論文誌に掲載されると1,000ドル貰えるし、学生なら賞金5,000ドルのAwardもある。
その他、与えられたテキストからカテゴリを予測するといったことも行える(詳細はGitHubのページで)。
EachMovie Dataset
- http://grouplens.org/datasets/eachmovie/
 - 店舗に対する5段階評価 (1-5)
 - 2,811,983 reviews
 - 72,916 users
 - 1,628 movies
 
<国内>
楽天データ公開
- http://rit.rakuten.co.jp/rdr/
 - 楽天市場(みんなのレビュー):商品に対する5段階評価 (1-5)
 - 楽天トラベル:ホテルに対する5段階評価、項目別評価あり (1-5)
 
様々なデータが公開されているが、情報推薦の分野で活用できそうのなのは楽天市場、楽天トラベル、GORA(ゴルフ場)に関する評価データ。
楽天市場(みんなのレビュー)は膨大なレビューが利用可能。しかし「レビューを書くと送料無料」といった施策の影響か、コピペレビューがとても多い上に評価が5(最高値)に大きく偏っている。そのため、これらを踏まえた前処理が必須。実際に行った前処理の結果については下記参照。
[追記] 楽天市場のレビューを用いた論文が無料でDLできます(要ID登録)。
Zhongjie Mao, Shunichi Hattori and Yasufumi Takama, Analysis of Online Reviews for Evaluating Informative Reviews, SCIS&ISIS2012, W2-44-2, 2012.
楽天トラベルではコピペは少ないが、それでも評価は(他セットとくらべて)好評寄りに偏っている。SUSHI Preference Data Sets
- http://www.kamishima.net/sushi/
 - 寿司に対する嗜好を5段階(0-4)と順位(1-10)で評価
 - 5,000 users
 - 100 items
 
T. Kamishima, Nantonac Collaborative Filtering: Recommendation Based on Order Responses, KDD2003, pp.583-588, 2003. [PDF]
0 件のコメント:
コメントを投稿