SyntaxHighlighter

2014年2月6日木曜日

情報推薦の研究に使えるデータセット

海外・国内それぞれで公開されているデータセットをまとめました。
情報推薦(推薦システム)に関する研究で利用することを想定し、アイテム(商品や映画等)とそれに対する評価情報がペアになっているものをピックアップしています。

<海外>

GroupLens Dataset

最も有名で、最も利用されているデータセット。
データサイズは100k, 1M, 10Mの3種類が用意されている。


The Book-Crossing Dataset

Book-Crossingと呼ばれる「書籍に旅をさせる」プロジェクトから収集されたデータセット。


Yelp Dataset

飲食店やお店に関するクチコミを掲載しているYelpのデータセット。利用には申請が必要。
面白いのは業績に対する賞金が充実していること。例えば査読付き論文誌に掲載されると1,000ドル貰えるし、学生なら賞金5,000ドルのAwardもある。
その他、与えられたテキストからカテゴリを予測するといったことも行える(詳細はGitHubのページで)。

EachMovie Dataset

MovieLensと並んでよく利用されていたが、現在は公開終了。

<国内>

楽天データ公開

  • http://rit.rakuten.co.jp/rdr/
  • 楽天市場(みんなのレビュー):商品に対する5段階評価 (1-5)
  • 楽天トラベル:ホテルに対する5段階評価、項目別評価あり (1-5)
大学・研究機関のみ利用可能で、事前申請が必要。
様々なデータが公開されているが、情報推薦の分野で活用できそうのなのは楽天市場、楽天トラベル、GORA(ゴルフ場)に関する評価データ。
楽天市場(みんなのレビュー)は膨大なレビューが利用可能。しかし「レビューを書くと送料無料」といった施策の影響か、コピペレビューがとても多い上に評価が5(最高値)に大きく偏っている。そのため、これらを踏まえた前処理が必須。実際に行った前処理の結果については下記参照。
[追記] 楽天市場のレビューを用いた論文が無料でDLできます(要ID登録)

Zhongjie Mao, Shunichi Hattori and Yasufumi Takama, Analysis of Online Reviews for Evaluating Informative Reviews, SCIS&ISIS2012, W2-44-2, 2012.

楽天トラベルではコピペは少ないが、それでも評価は(他セットとくらべて)好評寄りに偏っている。

SUSHI Preference Data Sets

寿司についての嗜好を調査したデータセット。詳細は下記の文献を参照。

T. Kamishima, Nantonac Collaborative Filtering: Recommendation Based on Order Responses, KDD2003, pp.583-588, 2003. [PDF]