NTCIR-14 OpenLiveQ-2
OpenLiveQ (Open Live Test for Question Retrieval)はNTCIRのコアタスクの1つであり, Yahoo!知恵袋の実サービス環境にて評価が行われる質問検索タスクです.
リーダーボード
ID | チーム名 | 説明 | 投稿日時 | Q |
153 | OKSAT | run-N7 | 2018-09-15 23:41:30 UTC | 0.44076 |
152 | ADAPT | Final run, normalized best features | 2018-09-15 22:32:15 UTC | 0.49051 |
151 | OKSAT | run-S4 | 2018-09-14 23:36:29 UTC | 0.39083 |
150 | ADAPT | MixedModel TitleAnswerSnippet | 2018-09-14 20:49:40 UTC | 0.46404 |
149 | AITOK | view count + answers x snippet cos word2vec double-weighted by norm query | 2018-09-14 16:20:29 UTC | 0.49437 |
148 | YJRS | GBDT 77 features (tuned) | 2018-09-14 12:53:22 UTC | 0.37429 |
147 | ADAPT | Zscore 6 features | 2018-09-13 20:29:39 UTC | 0.46639 |
146 | OKSAT | run-N6 | 2018-09-13 20:15:44 UTC | 0.41897 |
145 | AITOK | view count + answers x snippet L1 word2vec double-weighted by norm query | 2018-09-13 16:10:16 UTC | 0.49412 |
144 | YJRS | GBDT 77 features | 2018-09-13 08:57:35 UTC | 0.37228 |
143 | ADAPT | Sum Normalised Features | 2018-09-12 18:38:28 UTC | 0.44489 |
142 | OKSAT | run-N5 | 2018-09-12 18:10:48 UTC | 0.39342 |
141 | AITOK | view count + answers x snippet word2vec double-weighted by norm query v2 | 2018-09-12 15:45:21 UTC | 0.49427 |
140 | OKSAT | run-U5 | 2018-09-11 18:09:14 UTC | 0.38214 |
139 | AITOK | view count + answers x snippet word2vec double-weighted by norm query | 2018-09-11 15:43:02 UTC | 0.49483 |
138 | OKSAT | run9 | 2018-09-10 16:59:26 UTC | 0.49021 |
137 | AITOK | view count + answers x snippet 2-gram tf-idf double-weighted by norm query | 2018-09-10 15:33:41 UTC | 0.50028 |
136 | YJRS | YJRS-86 + A -> Q translated 94 features | 2018-09-10 07:06:11 UTC | 0.38514 |
135 | OKSAT | run20 | 2018-09-09 16:57:29 UTC | 0.43063 |
134 | AITOK | view count + answers x snippet 2-gram tf-idf weighted by query | 2018-09-09 15:30:43 UTC | 0.49838 |
133 | ADAPT | Combined Features Iteration 2 | 2018-09-09 08:12:48 UTC | 0.44948 |
132 | OKSAT | run-S3 | 2018-09-08 16:52:42 UTC | 0.39083 |
131 | AITOK | view count + answers x snippet 2-gram tf-idf weighted by query | 2018-09-08 15:28:22 UTC | 0.50152 |
130 | ADAPT | Combined mixed features | 2018-09-07 23:09:26 UTC | 0.46410 |
129 | AITOK | view count + answers x 2-gram tf-idf weighted by query | 2018-09-07 14:44:07 UTC | 0.50000 |
128 | ADAPT | Simple Features | 2018-09-06 23:07:45 UTC | 0.45909 |
127 | AITOK | view count worted with answers x tf-idf weighted by query | 2018-09-06 14:37:47 UTC | 0.49900 |
126 | ADAPT | Combination Mixed-2 | 2018-09-05 20:22:58 UTC | 0.43851 |
125 | AITOK | view count sorted with answers, cutoff, click, updated, order and rank | 2018-09-05 14:24:36 UTC | 0.49393 |
124 | AITOK | view count sorted with click, updated, answers, order, rank and cutoff | 2018-09-04 14:22:22 UTC | 0.49347 |
123 | ADAPT | Combination Mixed Features | 2018-09-03 22:42:19 UTC | 0.49546 |
122 | AITOK | click through and view count | 2018-09-03 14:19:01 UTC | 0.49319 |
121 | OKSAT | run-S1 | 2018-09-03 10:48:31 UTC | 0.42256 |
120 | AITOK | view count | 2018-09-02 13:04:15 UTC | 0.49363 |
119 | OKSAT | run-N4 | 2018-09-02 10:22:02 UTC | 0.39556 |
118 | ADAPT | CLICK Model | 2018-09-01 16:31:19 UTC | 0.33951 |
117 | AITOK | cutoff and view | 2018-09-01 12:49:49 UTC | 0.43231 |
116 | OKSAT | run-U4 | 2018-09-01 07:49:35 UTC | 0.38686 |
115 | AITOK | 2-gram TF-IDF+ with click and view with cutoff without rank | 2018-08-31 12:15:46 UTC | 0.42676 |
114 | OKSAT | run-N3 | 2018-08-31 07:47:46 UTC | 0.42346 |
113 | YJRS | ListNet 77 features 5cv | 2018-08-31 02:50:48 UTC | 0.37240 |
112 | ADAPT | TopFeatures | 2018-08-30 23:39:32 UTC | 0.37051 |
111 | AITOK | 2-gram TF-IDF+ with click with cutoff and view without rank | 2018-08-30 11:40:05 UTC | 0.43910 |
110 | ADAPT | MartPipeline | 2018-08-29 23:36:22 UTC | 0.44412 |
109 | AITOK | Dependent 2-gram TF-IDF with click through rate with cutoff without rank | 2018-08-29 11:08:38 UTC | 0.41748 |
108 | OKSAT | run-S1 | 2018-08-29 10:39:14 UTC | 0.42334 |
107 | AITOK | 2-gram TF-IDF+ with click through rate with cutoff without rank | 2018-08-28 11:07:07 UTC | 0.42008 |
106 | ADAPT | Pipeline system | 2018-08-27 15:51:05 UTC | 0.45380 |
105 | AITOK | 2-gram TF-IDF+ with click through rate with cutoff | 2018-08-27 11:03:07 UTC | 0.40479 |
104 | OKSAT | run-U3 | 2018-08-27 08:24:28 UTC | 0.47441 |
103 | AITOK | 1-gram TF-IDF+ with click through rate with cutoff | 2018-08-26 10:25:37 UTC | 0.39852 |
102 | AITOK | 1-gram TF-IDF with click through rate with cutoff | 2018-08-25 09:42:37 UTC | 0.39724 |
101 | AITOK | This result is only for uploading test from AITOK. | 2018-08-24 04:07:35 UTC | 0.38194 |
100 | YJRS | ListNet 77 features | 2018-08-19 06:06:55 UTC | 0.37340 |
99 | ADAPT | Sample Run, Testing | 2018-08-13 14:57:31 UTC | 0.38194 |
98 | OKSAT | run-U2 | 2018-08-10 02:39:14 UTC | 0.43121 |
97 | OKSAT | run-U1 | 2018-08-07 05:25:21 UTC | 0.49425 |
96 | OKSAT | run-U1 | 2018-08-07 05:23:56 UTC | 0.49425 |
95 | YJRS | baseline 77 features (retry) | 2018-08-06 01:45:16 UTC | 0.39559 |
94 | OKSAT | run-U0 | 2018-08-02 23:29:01 UTC | 0.38316 |
93 | YJRS | baseline + A -> Q translated 94 features | 2018-08-02 06:34:25 UTC | 0.46387 |
92 | YJRS | YJRS-86 80 features | 2018-07-31 02:31:20 UTC | 0.45609 |
91 | YJRS | baseline 77 features | 2018-07-25 04:07:03 UTC | 0.39124 |
90 | OKSAT | run-S0 | 2018-07-25 03:21:53 UTC | 0.38194 |
89 | ORG | # AS IS | 2018-06-23 05:00:34 UTC | 0.38194 |
概要
OpenLiveQ (Open Live Test for Question Retrieval)では質問検索システムの評価のために,ヤフー株式会社のコミュニティQ&Aサービスにおけるオープンライブテスト環境を提供します. このタスクでは,より現実的なシステム評価を行う機会を提供し,実検索サービスに特有の問題(e.g. クエリの曖昧性・不明瞭性,多様な適合性基準)に取り組むことを支援します. タスク自体はシンプルで,クエリと回答付き質問集合が与えられたときに順位付きの質問リストを返すタスクとなっています.
スケジュール
2018年5月-8月 | オフラインテスト(適合性判定を行ったデータによる評価)* |
---|---|
2018年9月1日 |
参加登録締切 ( NTCIR-14 Webサイトで登録 )* |
2018年9月15日 |
ラン投稿締切 * |
2018年9月-11月 | オンラインテスト(実ユーザによる評価)# |
2019年1月10日 | オンラインテスト結果返却# |
2019年2月1日 | タスク概要論文(ドラフト)公開# |
2019年3月15日 | タスク参加者論文(ドラフト) 提出締切* |
2019年5月1日 | タスク参加者論文 最終提出締切* |
2019年6月10日-13日 | NTCIR-14カンファレンス@NII, 東京* |
*は参加者,#はオーガナイザが行うべき予定になっています |
参加方法
NTCIR-14 OpenLiveQタスクに参加するには, まず「 タスク参加者の行うべきこと 」をご覧ください.
その後,以下の手続きを行ってください:
- オンラインタスク参加申込
- 必要とする「 テストコレクション利用許諾のための覚書(参加者用) 」をダウンロード
- 署名・捺印をした原本2部を作成の上, NTCIR事務局 までご郵送ください
覚書の手続き完了後にデータのご案内をいたします.
データ
参加者は以下のデータを入手することができます:
-
Yahoo!知恵袋検索に入力されたクエリ(訓練: 1,000クエリ,テスト: 1,000クエリ)
- クエリに対する検索結果中の各質問のクリック率
-
各質問をクリックしたユーザの属性情報
- 男女の割合
- 各年代の割合
- 各クエリに対して最大1,000件の質問・回答情報 (検索結果中に表示される情報(スニペット等)を含む)
タスク
クエリ集合\(Q\)の各クエリ\(q \in Q\)について, 質問集合\(D_q \subset D\)(\(D\)は全質問集合)が与えられています. OpenLiveQの唯一のタスクは, 各クエリ\(q\)の質問集合\(D_q\)に順序を与えることです.
入力
入力はクエリと各クエリに対する質問集合です.
クエリはファイル「OpenLiveQ-queries-test.tsv」に記述されており,
各行に1つのクエリが書かれています.
ファイルのフォーマットは以下の通りです:
[QueryID_1]\t[Content_1]
[QueryID_2]\t[Content_2]
...
[QueryID_n]\t[Content_n]
ただし,[QueryID_i]
はクエリID,
[Content_i]
はクエリ文字列です.
質問集合はファイル「OpenLiveQ-questions-test.tsv」に記述されており,
各行はクエリIDと質問IDのペアから構成されます.
ファイルのフォーマットは以下の通りです:
[QueryID_1]\t[QuestionID_1_1]
[QueryID_1]\t[QuestionID_1_2]
...
[QueryID_n]\t[QuestionID_n_m]
各行はどの質問がどのクエリに対応しているか,すなわち,
クエリ\(q\)に対する質問集合\(D_q\)に質問\(d\)が所属していることを意味します.
行[QueryID_i]\t[QuestionID_i_j]
は
クエリ
[QueryID_i]
(\(q\))に対する質問集合\(D_q\)
に質問[QuestionID_i_j]
が含まれることを表します.
入力サンプル
OpenLiveQ-queries.tsv
OLQ-0001 野球
OLQ-0002 広島
OLQ-0003 神社
OpenLiveQ-questions.tsv
OLQ-0001 q0000000000
OLQ-0001 q0000000001
OLQ-0002 q0000000000
OLQ-0002 q0000000002
OLQ-0003 q0000000003
OLQ-0003 q0000000004
出力
出力は各クエリに対する順序付き質問集合です.
出力は1つのファイルにまとめる必要があり,各行はクエリIDと質問IDのペアから構成されます.
出力ファイルのフォーマットは以下の通りです:
[Description]
[QueryID_1]\t[QuestionID_1_1]
[QueryID_1]\t[QuestionID_1_2]
...
[QueryID_n]\t[QuestionID_n_m]
ただし,[Description]
はシステムの簡単な説明(改行を含まない)です.
最初の行以外は,質問集合ファイル「OpenLiveQ-questions.tsv」
の行を並び替えたものである必要があります.
ファイル中で行[QueryID_i]\t[QuestionID_i_j]
が
行[QueryID_i]\t[QuestionID_i_j']
よりも前に出現しているとき,
クエリ[QueryID_i]
において,
質問[QuestionID_i_j]
が質問
[QuestionID_i_j']
よりも上位に順位付けされたことを意味します.
出力サンプル
OLQ-0001 q0000000001
OLQ-0001 q0000000000
OLQ-0002 q0000000002
OLQ-0002 q0000000000
OLQ-0003 q0000000004
OLQ-0003 q0000000003
上記の出力は以下のランキングを表しています:
- OLQ-0001: q0000000001, q0000000000
- OLQ-0002: q0000000002, q0000000000
- OLQ-0003: q0000000004, q0000000003
リソース
質問のランキングには,トレーニング用クエリ,トレーニング用質問, 全質問のタイトル・本文等のデータ,クリックスルーデータを利用することができます.
トレーニング用クエリ
トレーニング用クエリはファイル「OpenLiveQ-queries-train.tsv」に記述されており, フォーマットはOpenLiveQ-queries-test.tsvと同じです.
トレーニング用質問
トレーニング用質問はファイル「OpenLiveQ-questions-train.tsv」に記述されており, フォーマットはOpenLiveQ-questions-test.tsvと同じです.
質問データ
全ての質問に関する情報はファイル「OpenLiveQ-question-data.tsv」に記述されており, ファイルの各行は1つの質問に関する以下の12項目を含んでいます(タブ区切り):
- Query ID(質問に対応するクエリ)
- Query IDのクエリに対するYahoo!知恵袋の検索結果における質問の順位
- Question ID
- 質問のタイトル
- 検索結果中での質問のスニペット
- 質問の状態(回答受付中,投票受付中,解決済み)
- 質問の更新日時
- 質問に対する回答数
- 質問の閲覧数
- 質問のカテゴリ
- 質問の本文
- 質問に対するベストアンサーの本文
クリックスルーデータ
一部の質問に対して,クリックスルーデータが提供されます. クリックスルーデータを用いることで,一部の質問のクリック率を推定したり, どのようなユーザからクリックされやすいのかを予測したりすることができます. クリックスルーデータはファイル「OpenLiveQ-clickthrough-data.tsv」に含まれており, タブによって区切られた,以下の13項目が各行に含まれています:
- Query ID(質問に対応するクエリ)
- Question ID
- Query IDのクエリに対するYahoo!知恵袋の検索結果における質問の最頻順位
- クリックスルーレート
- 男性によってクリックされた割合
- 女性によってクリックされた割合
- 10才未満のユーザによってクリックされた割合
- 10代のユーザによってクリックされた割合
- 20代のユーザによってクリックされた割合
- 30代のユーザによってクリックされた割合
- 40代のユーザによってクリックされた割合
- 50代のユーザによってクリックされた割合
- 60才以上のユーザによってクリックされた割合
評価
オフラインテスト
適合性判定を行ったデータによる評価
オフラインテストは,後述のオンラインテストの前に行われ, ここでの成績によって参加者のどのシステムがオンラインテストに用いられるかが決定されます. 評価は通常のアドホック検索タスクと同様に, 適合性判定とnDCG (normalized discounted cumulative gain), ERR (expected reciprocal rank), Q-measureなどの評価指標を用いて行われます. 参加者はオフラインテスト期間中,本Webサイトから結果を1日1回提出することが可能であり, その場で評価結果を受け取ることができます.
評価指標
利用される予定の評価指標は以下の通りです:- nDCG (normalized discounted cumulative gain)
- ERR (expected reciprocal rank)
- Q-measure
投稿方法
LinuxまたはMacで下記のコマンドを入力することで結果を投稿することができます:
curl http://www.openliveq.net/runs -X POST -H "Authorization:[AUTH_TOKEN]" -F run_file=@[PATH_TO_YOUR_RUN_FILE]
ただし,[AUTH_TOKEN]は参加者にのみ配布されます.
例えば,実際のコマンドは下記のようになります:
curl http://www.openliveq.net/runs -X POST -H "Authorization:ORG:AABBCCDDEEFF" -F run_file=@data/your_run.tsv
以下の点に留意ください:
- 結果ファイルのアップロードには数分かかります.
- 各チームは24時間の間に1回のみ結果を投稿することができます.
評価結果(Q-measure)がこのサイトの上部に表示されます. 評価結果の詳細は投稿締切後に送られる予定です.
オンラインテスト
実ユーザによる評価
提出された結果はMultileaving1によって評価されます. オフラインテストによって評価されたシステムのうち, 現行のランキングと比較して有意に悪くないランに対してオンラインテストが行われます. Multileavingによって1つの検索結果に統合された提出結果は, オンラインテスト期間中に実ユーザに提示され, その期間中のクリックを収集することで各システムの優劣を決定します. オンラインテストでは,オフラインテスト時に提出した結果がそのまま利用されます. ただし,オンラインテスト開始前,または,実施中に何らかの理由により削除された質問は, オンラインテストでは除外されることになります. NTCIR-14 OpenLiveQ-2では,ベースラインラン(ID: 89)をオフライン評価で上回る全てのランをオンライン評価する予定です.
1 Schuth et al. "Multileaved Comparisons for Fast Online Evaluation." CIKM 2014.
オーガナイザ
- 加藤 誠(京都大学)
- 山本 岳洋(京都大学)
- 藤田 澄男(ヤフー株式会社 )
- 西田 成臣(ヤフー株式会社 )
- 真鍋 知博(ヤフー株式会社 )