NTCIR-13 OpenLiveQ-1
OpenLiveQ (Open Live Test for Question Retrieval)はNTCIR-13のコアタスクの1つであり, Yahoo!知恵袋の実サービス環境にて評価が行われる質問検索タスクです.
概要
OpenLiveQ (Open Live Test for Question Retrieval)では質問検索システムの評価のために,ヤフー株式会社のコミュニティQ&Aサービスにおけるオープンライブテスト環境を提供します. このタスクでは,より現実的なシステム評価を行う機会を提供し,実検索サービスに特有の問題(e.g. クエリの曖昧性・不明瞭性,多様な適合性基準)に取り組むことを支援します. タスク自体はシンプルで,クエリと回答付き質問集合が与えられたときに順位付きの質問リストを返すタスクとなっています.
スケジュール
2017年2月28日 |
参加登録締切 ( NTCIR-13 Webサイトで登録 )* |
---|---|
2017年1月1日- |
オフラインテスト(適合性判定を行ったデータによる評価)* |
2017年4月-6月 | オンラインテスト(実ユーザによる評価)# |
2017年7月1日 | オンラインテスト結果返却# |
2017年9月1日 | タスク概要論文(ドラフト)公開# |
2017年10月1日 | タスク参加者論文(ドラフト) 提出締切* |
2017年11月1日 | タスク参加者論文 最終提出締切* |
2017年12月5日-8日 | NTCIR-13カンファレンス@NII, 東京* |
*は参加者,#はオーガナイザが行うべき予定になっています |
参加方法
NTCIR-13 OpenLiveQタスクに参加するには, まず「 タスク参加者の行うべきこと 」をご覧ください.
その後,以下の手続きを行ってください:
- オンラインタスク参加申込
- 必要とする「 テストコレクション利用許諾のための覚書(参加者用) 」をダウンロード
- 署名・捺印をした原本2部を作成の上, NTCIR事務局 までご郵送ください
覚書の手続き完了後にデータのご案内をいたします.
データ
参加者は以下のデータを入手することができます:
-
Yahoo!知恵袋検索に入力されたクエリ(訓練: 1,000クエリ,テスト: 1,000クエリ)
- クエリに対する検索結果中の各質問のクリック率
-
各質問をクリックしたユーザの属性情報
- 男女の割合
- 各年代の割合
- 各クエリに対して最大1,000件の質問・回答情報 (検索結果中に表示される情報(スニペット等)を含む)
タスク
クエリ集合\(Q\)の各クエリ\(q \in Q\)について, 質問集合\(D_q \subset D\)(\(D\)は全質問集合)が与えられています. OpenLiveQの唯一のタスクは, 各クエリ\(q\)の質問集合\(D_q\)に順序を与えることです.
入力
入力はクエリと各クエリに対する質問集合です.
クエリはファイル「OpenLiveQ-queries-test.tsv」に記述されており,
各行に1つのクエリが書かれています.
ファイルのフォーマットは以下の通りです:
[QueryID_1]\t[Content_1]
[QueryID_2]\t[Content_2]
...
[QueryID_n]\t[Content_n]
ただし,[QueryID_i]
はクエリID,
[Content_i]
はクエリ文字列です.
質問集合はファイル「OpenLiveQ-questions-test.tsv」に記述されており,
各行はクエリIDと質問IDのペアから構成されます.
ファイルのフォーマットは以下の通りです:
[QueryID_1]\t[QuestionID_1_1]
[QueryID_1]\t[QuestionID_1_2]
...
[QueryID_n]\t[QuestionID_n_m]
各行はどの質問がどのクエリに対応しているか,すなわち,
クエリ\(q\)に対する質問集合\(D_q\)に質問\(d\)が所属していることを意味します.
行[QueryID_i]\t[QuestionID_i_j]
は
クエリ
[QueryID_i]
(\(q\))に対する質問集合\(D_q\)
に質問[QuestionID_i_j]
が含まれることを表します.
入力サンプル
OpenLiveQ-queries.tsv
OLQ-0001 野球
OLQ-0002 広島
OLQ-0003 神社
OpenLiveQ-questions.tsv
OLQ-0001 q0000000000
OLQ-0001 q0000000001
OLQ-0002 q0000000000
OLQ-0002 q0000000002
OLQ-0003 q0000000003
OLQ-0003 q0000000004
出力
出力は各クエリに対する順序付き質問集合です.
出力は1つのファイルにまとめる必要があり,各行はクエリIDと質問IDのペアから構成されます.
出力ファイルのフォーマットは以下の通りです:
[Description]
[QueryID_1]\t[QuestionID_1_1]
[QueryID_1]\t[QuestionID_1_2]
...
[QueryID_n]\t[QuestionID_n_m]
ただし,[Description]
はシステムの簡単な説明(改行を含まない)です.
最初の行以外は,質問集合ファイル「OpenLiveQ-questions.tsv」
の行を並び替えたものである必要があります.
ファイル中で行[QueryID_i]\t[QuestionID_i_j]
が
行[QueryID_i]\t[QuestionID_i_j']
よりも前に出現しているとき,
クエリ[QueryID_i]
において,
質問[QuestionID_i_j]
が質問
[QuestionID_i_j']
よりも上位に順位付けされたことを意味します.
出力サンプル
OLQ-0001 q0000000001
OLQ-0001 q0000000000
OLQ-0002 q0000000002
OLQ-0002 q0000000000
OLQ-0003 q0000000004
OLQ-0003 q0000000003
上記の出力は以下のランキングを表しています:
- OLQ-0001: q0000000001, q0000000000
- OLQ-0002: q0000000002, q0000000000
- OLQ-0003: q0000000004, q0000000003
リソース
質問のランキングには,トレーニング用クエリ,トレーニング用質問, 全質問のタイトル・本文等のデータ,クリックスルーデータを利用することができます.
トレーニング用クエリ
トレーニング用クエリはファイル「OpenLiveQ-queries-train.tsv」に記述されており, フォーマットはOpenLiveQ-queries-test.tsvと同じです.
トレーニング用質問
トレーニング用質問はファイル「OpenLiveQ-questions-train.tsv」に記述されており, フォーマットはOpenLiveQ-questions-test.tsvと同じです.
質問データ
2016年12月1-9日時点での,全ての質問に関する情報はファイル「OpenLiveQ-question-data.tsv」に記述されており, ファイルの各行は1つの質問に関する以下の12項目を含んでいます(タブ区切り):
- Query ID(質問に対応するクエリ)
- Query IDのクエリに対するYahoo!知恵袋の検索結果における質問の順位
- Question ID
- 質問のタイトル
- 検索結果中での質問のスニペット
- 質問の状態(回答受付中,投票受付中,解決済み)
- 質問の更新日時
- 質問に対する回答数
- 質問の閲覧数
- 質問のカテゴリ
- 質問の本文
- 質問に対するベストアンサーの本文
クリックスルーデータ
一部の質問に対して,クリックスルーデータが提供されます. クリックスルーデータを用いることで,一部の質問のクリック率を推定したり, どのようなユーザからクリックされやすいのかを予測したりすることができます. このクリックスルーデータは2016年8月24日から2016年11月23日の期間に収集したデータを用いて生成しています. クリックスルーデータはファイル「OpenLiveQ-clickthrough-data.tsv」に含まれており, タブによって区切られた,以下の13項目が各行に含まれています:
- Query ID(質問に対応するクエリ)
- Question ID
- Query IDのクエリに対するYahoo!知恵袋の検索結果における質問の最頻順位
- クリックスルーレート
- 男性によってクリックされた割合
- 女性によってクリックされた割合
- 10才未満のユーザによってクリックされた割合
- 10代のユーザによってクリックされた割合
- 20代のユーザによってクリックされた割合
- 30代のユーザによってクリックされた割合
- 40代のユーザによってクリックされた割合
- 50代のユーザによってクリックされた割合
- 60才以上のユーザによってクリックされた割合
クリックスルーデータ中には440,163のクエリ-質問ペアが含まれています. 390,502クエリ-質問ペアについては質問に関する情報が"OpenLiveQ-question-data.tsv"に含まれていますが, それ以外のクエリ-質問ペアについては質問に関する情報が含まれておりません.
評価
オフラインテスト
適合性判定を行ったデータによる評価
オフラインテストは,後述のオンラインテストの前に行われ, ここでの成績によって参加者のどのシステムがオンラインテストに用いられるかが決定されます. 評価は通常のアドホック検索タスクと同様に, 適合性判定とnDCG (normalized discounted cumulative gain), ERR (expected reciprocal rank), Q-measureなどの評価指標を用いて行われます. 参加者はオフラインテスト期間中,本Webサイトから結果を1日1回提出することが可能であり, その場で評価結果を受け取ることができます.
適合性判定
オンラインテストと同じような評価結果を得るために, オフラインテストでは以下のような指示により,各質問の適合性を求めます: 「もしあなたがクエリ\(q\)を入力したと想定した場合に, 質問\(D_q\)のうち,あなたがクリックしたいと思う質問を全て選んでください」. 評価者には質問の本文を提示せず, Yahoo!知恵袋の検索結果ページに似たページ上で各質問の適合性を判断することになります. このような適合性判定の結果は,従来の適合性判定とは異なり, よりオンラインテストでの評価結果に近くなることが予想されます. 各クエリについて,複数名の評価者を割り当て, 各質問の適合度は「その質問を選択した評価者数」とします. 例えば,3名中2名の評価者がある質問を選んだ場合, その質問の適合度は「2」となります.評価指標
利用される予定の評価指標は以下の通りです:- nDCG (normalized discounted cumulative gain)
- ERR (expected reciprocal rank)
- Q-measure
投稿方法
LinuxまたはMacで下記のコマンドを入力することで結果を投稿することができます:
curl http://www.openliveq.net/runs -X POST -H "Authorization:[AUTH_TOKEN]" -F run_file=@[PATH_TO_YOUR_RUN_FILE]
ただし,[AUTH_TOKEN]は参加者にのみ配布されます.
例えば,実際のコマンドは下記のようになります:
curl http://www.openliveq.net/runs -X POST -H "Authorization:ORG:AABBCCDDEEFF" -F run_file=@data/your_run.tsv
以下の点に留意ください:
- 結果ファイルのアップロードには数分かかります.
- 各チームは24時間の間に1回のみ結果を投稿することができます.
- 投稿締切は
3月31日4月21日です.
評価結果(nDCG@10)がこのサイトの上部に表示されます. nDCG@10において上位10チームがオンラインテストにおいて評価されることになります. 評価結果の詳細は投稿締切後に送られる予定です.
オンラインテスト
実ユーザによる評価
提出された結果はMultileaving1によって評価されます. オフラインテストによって評価されたシステムのうち, 最大10システムに対してオンラインテストが行われます. Multileavingによって1つの検索結果に統合された提出結果は, オンラインテスト期間中に実ユーザに提示され, その期間中のクリックを収集することで各システムの優劣を決定します. オンラインテストでは,オフラインテスト時に提出した結果がそのまま利用されます. ただし,オンラインテスト開始前,または,実施中に何らかの理由により削除された質問は, オンラインテストでは除外されることになります.
ただし,各チームから投稿された結果のうち最も良い結果がオンラインテストで使用されることになります.
1 Schuth et al. "Multileaved Comparisons for Fast Online Evaluation." CIKM 2014.
オーガナイザ
- 加藤 誠(京都大学)
- 山本 岳洋(京都大学)
- 藤田 澄男(ヤフー株式会社 )
- 西田 成臣(ヤフー株式会社 )
- 真鍋 知博(ヤフー株式会社 )