リーダーボード

ID チーム名 説明 投稿日時 nDCG@10
88 OKSAT run20 2017-04-21 23:40:37 UTC 0.44471
87 cdlab Last 2017-04-21 16:10:07 UTC 0.41131
86 YJRS Baseline + multiple BM25F features + nDCG@10. 2017-04-21 01:06:33 UTC 0.41894
85 SLOLQ test #05 2017-04-20 21:45:33 UTC 0.31329
84 OKSAT run19 2017-04-20 16:19:10 UTC 0.43767
83 cdlab #21 2017-04-20 15:41:28 UTC 0.41800
82 YJRS 8foldCV_LambdaMART 2017-04-20 00:36:57 UTC 0.38087
81 SLOLQ test #04 2017-04-19 21:11:38 UTC 0.31516
80 OKSAT run18 2017-04-19 16:16:59 UTC 0.43516
79 cdlab #20 2017-04-19 15:37:19 UTC 0.31272
78 TUA1 RF 2000 bags 2017-04-19 07:56:00 UTC 0.35447
77 YJRS Baseline + multiple BM25F features. 2017-04-19 00:32:51 UTC 0.39637
76 cdlab #19 2017-04-18 15:22:33 UTC 0.30804
75 OKSAT run17 2017-04-18 09:37:52 UTC 0.43241
74 TUA1 RF 1000 bags 2017-04-18 05:40:58 UTC 0.36140
73 Erler test 2017-04-17 16:33:46 UTC 0.35451
72 cdlab #18 2017-04-17 15:14:37 UTC 0.28756
71 YJRS 8foldCV_RandomForest 2017-04-17 13:17:54 UTC 0.37091
70 OKSAT run16 2017-04-17 09:34:59 UTC 0.40094
69 SLOLQ test #04 2017-04-17 06:48:00 UTC 0.30167
68 Erler test translation 0.9 0.0 0.1 2017-04-16 16:26:58 UTC 0.35596
67 cdlab #17 2017-04-16 14:54:10 UTC 0.29235
66 YJRS Five-fold cross validation (2). 2017-04-16 08:58:59 UTC 0.40167
65 Erler test T2LM 0.4 0.4 0.1 0.1 2017-04-15 16:12:01 UTC 0.38670
64 cdlab #16 2017-04-15 14:36:06 UTC 0.29043
63 OKSAT run15 2017-04-15 11:28:36 UTC 0.42514
62 Erler test T2LM 0.4 0.1 0.4 0.1 2017-04-14 16:00:42 UTC 0.35415
61 SLOLQ test #03 2017-04-14 09:28:52 UTC 0.31346
60 Erler test translation 0.4 0.7 0.0 2017-04-13 15:58:21 UTC 0.34709
59 cdlab #15 2017-04-13 13:03:24 UTC 0.32396
58 OKSAT run14 2017-04-13 12:25:20 UTC 0.24125
57 Erler test translation 0.4 0.5 0.1 2017-04-12 15:54:23 UTC 0.37304
56 cdlab #14 2017-04-12 12:23:30 UTC 0.41352
55 OKSAT run13 2017-04-12 06:24:10 UTC 0.41960
54 SLOLQ test #02 2017-04-11 21:43:51 UTC 0.31908
53 Erler test translation 0.4 0.5 0.1 2017-04-11 15:49:31 UTC 0.39139
52 cdlab #13 2017-04-11 09:55:57 UTC 0.41623
51 OKSAT run12 2017-04-11 05:30:34 UTC 0.37958
50 YJRS Five-fold cross validation (fix). 2017-04-11 03:13:05 UTC 0.41157
49 Erler lda 70 2000 improve 2017-04-10 15:24:16 UTC 0.37968
48 YJRS Five-fold cross validation. 2017-04-10 02:36:27 UTC 0.37965
47 Erler lda 70 2000 2017-04-09 15:10:57 UTC 0.37985
46 OKSAT run11 2017-04-09 13:31:17 UTC 0.33449
45 Erler Origin 2017-04-08 14:28:27 UTC 0.38193
44 Erler LDA 2017-04-07 14:17:36 UTC 0.37985
43 OKSAT run10 2017-04-06 11:02:25 UTC 0.36669
42 cdlab #12 2017-04-05 13:05:29 UTC 0.41586
41 cdlab #11 2017-04-02 09:09:14 UTC 0.40222
40 OKSAT run9 2017-03-31 23:59:21 UTC 0.37837
39 cdlab #10 2017-03-31 14:53:38 UTC 0.40251
38 YJRS Baseline + naive BM25F. 2017-03-31 06:16:38 UTC 0.37965
37 OKSAT run8 2017-03-30 17:08:45 UTC 0.33365
36 OKSAT run7 2017-03-29 10:00:44 UTC 0.30427
35 SLOLQ test 2017-03-28 19:21:37 UTC 0.31384
34 cdlab #9 2017-03-28 15:11:37 UTC 0.40323
33 OKSAT run6 2017-03-28 09:55:53 UTC 0.32638
32 cdlab #8 2017-03-27 15:09:34 UTC 0.35070
31 TUA1 rank with RandomForests model 300bags 2017-03-27 08:38:30 UTC 0.34849
30 OKSAT run5 2017-03-27 07:03:10 UTC 0.30756
29 cdlab #7 2017-03-26 11:47:00 UTC 0.37515
28 YJRS BM25F, roughly optimized with CA where n = 3 and sf = 0.8 . 2017-03-26 03:21:10 UTC 0.34316
27 OKSAT run0 2017-03-25 12:24:56 UTC 0.35451
26 cdlab #6 2017-03-25 11:44:34 UTC 0.29530
25 YJRS BM25F, roughly optimized with CA where n = 3 . 2017-03-25 03:00:59 UTC 0.33341
24 cdlab #5 2017-03-24 11:02:16 UTC 0.37518
23 OKSAT run4 2017-03-24 08:42:37 UTC 0.36388
22 Erler Test 2017-03-24 08:03:40 UTC 0.40566
21 cdlab #4 2017-03-23 02:48:00 UTC 0.37207
20 OKSAT run3 2017-03-23 00:23:08 UTC 0.29426
19 TUA1 ubuntu14.04 amd64 test1 2017-03-22 12:11:49 UTC 0.37670
18 KUIDL LambdaMART (without normalization) 2017-03-22 09:13:58 UTC 0.35788
17 ORG Example result with Coordinate Ascent (with improved rel labels, no norm) 2017-03-22 09:02:12 UTC 0.35957
16 YJRS Roughly optimized BM25F. 2017-03-22 01:55:44 UTC 0.33337
15 OKSAT run2 2017-03-21 17:19:39 UTC 0.29214
14 KUIDL LambdaMART (with smaller amount of training data) 2017-03-21 09:09:30 UTC 0.32683
13 ORG Example result with Coordinate Ascent (with improved rel labels) 2017-03-21 08:53:33 UTC 0.36642
12 cdlab #3 2017-03-20 16:22:53 UTC 0.26786
11 OKSAT run1 2017-03-20 15:35:30 UTC 0.37083
10 YJRS Naive BM25F. 2017-03-20 14:44:52 UTC 0.36452
9 cdlab #2 2017-03-19 10:02:54 UTC 0.36321
8 KUIDL LambdaMART 2017-03-19 01:31:07 UTC 0.34231
7 ORG Example result with Coordinate Ascent 2017-03-19 01:10:23 UTC 0.41328
6 cdlab #1 2017-03-18 05:40:24 UTC 0.33105
5 YJRS Test run. 2017-03-17 06:46:18 UTC 0.34371
4 ORG This is a sample (almost identical to the distributed file). 2017-02-20 09:50:32 UTC 0.35451

概要

OpenLiveQ (Open Live Test for Question Retrieval)では質問検索システムの評価のために,ヤフー株式会社のコミュニティQ&Aサービスにおけるオープンライブテスト環境を提供します. このタスクでは,より現実的なシステム評価を行う機会を提供し,実検索サービスに特有の問題(e.g. クエリの曖昧性・不明瞭性,多様な適合性基準)に取り組むことを支援します. タスク自体はシンプルで,クエリと回答付き質問集合が与えられたときに順位付きの質問リストを返すタスクとなっています.

スケジュール

2016年12月15日
2017年2月28日
参加登録締切 ( NTCIR-13 Webサイトで登録 )*
2017年1月1日-3月31日 4月21日 オフラインテスト(適合性判定を行ったデータによる評価)*
2017年4月-6月 オンラインテスト(実ユーザによる評価)#
2017年7月1日 オンラインテスト結果返却#
2017年9月1日 タスク概要論文(ドラフト)公開#
2017年10月1日 タスク参加者論文(ドラフト) 提出締切*
2017年11月1日 タスク参加者論文 最終提出締切*
2017年12月5日-8日 NTCIR-13カンファレンス@NII, 東京*
*は参加者,#はオーガナイザが行うべき予定になっています

参加方法

NTCIR-13 OpenLiveQタスクに参加するには, まず「 タスク参加者の行うべきこと 」をご覧ください.

その後,以下の手続きを行ってください:

  1. オンラインタスク参加申込
  2. 必要とする「 テストコレクション利用許諾のための覚書(参加者用) 」をダウンロード
  3. 署名・捺印をした原本2部を作成の上, NTCIR事務局 までご郵送ください

覚書の手続き完了後にデータのご案内をいたします.

データ

参加者は以下のデータを入手することができます:

  • Yahoo!知恵袋検索に入力されたクエリ(訓練: 1,000クエリ,テスト: 1,000クエリ)
    • クエリに対する検索結果中の各質問のクリック率
    • 各質問をクリックしたユーザの属性情報
      • 男女の割合
      • 各年代の割合
  • 各クエリに対して最大1,000件の質問・回答情報 (検索結果中に表示される情報(スニペット等)を含む)

タスク

クエリ集合\(Q\)の各クエリ\(q \in Q\)について, 質問集合\(D_q \subset D\)(\(D\)は全質問集合)が与えられています. OpenLiveQの唯一のタスクは, 各クエリ\(q\)の質問集合\(D_q\)に順序を与えることです.

入力

入力はクエリと各クエリに対する質問集合です.

クエリはファイル「OpenLiveQ-queries-test.tsv」に記述されており, 各行に1つのクエリが書かれています. ファイルのフォーマットは以下の通りです:
[QueryID_1]\t[Content_1]
[QueryID_2]\t[Content_2]
...
[QueryID_n]\t[Content_n]

ただし,[QueryID_i]はクエリID, [Content_i] はクエリ文字列です.

質問集合はファイル「OpenLiveQ-questions-test.tsv」に記述されており, 各行はクエリIDと質問IDのペアから構成されます. ファイルのフォーマットは以下の通りです:
[QueryID_1]\t[QuestionID_1_1]
[QueryID_1]\t[QuestionID_1_2]
...
[QueryID_n]\t[QuestionID_n_m]

各行はどの質問がどのクエリに対応しているか,すなわち, クエリ\(q\)に対する質問集合\(D_q\)に質問\(d\)が所属していることを意味します. 行[QueryID_i]\t[QuestionID_i_j]は クエリ [QueryID_i] (\(q\))に対する質問集合\(D_q\) に質問[QuestionID_i_j]が含まれることを表します.

入力サンプル

OpenLiveQ-queries.tsv
OLQ-0001 野球
OLQ-0002 広島
OLQ-0003 神社


OpenLiveQ-questions.tsv
OLQ-0001 q0000000000
OLQ-0001 q0000000001
OLQ-0002 q0000000000
OLQ-0002 q0000000002
OLQ-0003 q0000000003
OLQ-0003 q0000000004

出力

出力は各クエリに対する順序付き質問集合です. 出力は1つのファイルにまとめる必要があり,各行はクエリIDと質問IDのペアから構成されます. 出力ファイルのフォーマットは以下の通りです:
[Description]
[QueryID_1]\t[QuestionID_1_1]
[QueryID_1]\t[QuestionID_1_2]
...
[QueryID_n]\t[QuestionID_n_m]

ただし,[Description]はシステムの簡単な説明(改行を含まない)です. 最初の行以外は,質問集合ファイル「OpenLiveQ-questions.tsv」 の行を並び替えたものである必要があります. ファイル中で行[QueryID_i]\t[QuestionID_i_j]が 行[QueryID_i]\t[QuestionID_i_j']よりも前に出現しているとき, クエリ[QueryID_i]において, 質問[QuestionID_i_j]が質問 [QuestionID_i_j'] よりも上位に順位付けされたことを意味します.

出力サンプル

OLQ-0001 q0000000001
OLQ-0001 q0000000000
OLQ-0002 q0000000002
OLQ-0002 q0000000000
OLQ-0003 q0000000004
OLQ-0003 q0000000003


上記の出力は以下のランキングを表しています:

  • OLQ-0001: q0000000001, q0000000000
  • OLQ-0002: q0000000002, q0000000000
  • OLQ-0003: q0000000004, q0000000003

リソース

質問のランキングには,トレーニング用クエリ,トレーニング用質問, 全質問のタイトル・本文等のデータ,クリックスルーデータを利用することができます.

トレーニング用クエリ

トレーニング用クエリはファイル「OpenLiveQ-queries-train.tsv」に記述されており, フォーマットはOpenLiveQ-queries-test.tsvと同じです.

トレーニング用質問

トレーニング用質問はファイル「OpenLiveQ-questions-train.tsv」に記述されており, フォーマットはOpenLiveQ-questions-test.tsvと同じです.

質問データ

2016年12月1-9日時点での,全ての質問に関する情報はファイル「OpenLiveQ-question-data.tsv」に記述されており, ファイルの各行は1つの質問に関する以下の12項目を含んでいます(タブ区切り):

  1. Query ID(質問に対応するクエリ)
  2. Query IDのクエリに対するYahoo!知恵袋の検索結果における質問の順位
  3. Question ID
  4. 質問のタイトル
  5. 検索結果中での質問のスニペット
  6. 質問の状態(回答受付中,投票受付中,解決済み)
  7. 質問の更新日時
  8. 質問に対する回答数
  9. 質問の閲覧数
  10. 質問のカテゴリ
  11. 質問の本文
  12. 質問に対するベストアンサーの本文
1,967,274件の質問が質問データに含まれています.

クリックスルーデータ

一部の質問に対して,クリックスルーデータが提供されます. クリックスルーデータを用いることで,一部の質問のクリック率を推定したり, どのようなユーザからクリックされやすいのかを予測したりすることができます. このクリックスルーデータは2016年8月24日から2016年11月23日の期間に収集したデータを用いて生成しています. クリックスルーデータはファイル「OpenLiveQ-clickthrough-data.tsv」に含まれており, タブによって区切られた,以下の13項目が各行に含まれています:

  1. Query ID(質問に対応するクエリ)
  2. Question ID
  3. Query IDのクエリに対するYahoo!知恵袋の検索結果における質問の最頻順位
  4. クリックスルーレート
  5. 男性によってクリックされた割合
  6. 女性によってクリックされた割合
  7. 10才未満のユーザによってクリックされた割合
  8. 10代のユーザによってクリックされた割合
  9. 20代のユーザによってクリックされた割合
  10. 30代のユーザによってクリックされた割合
  11. 40代のユーザによってクリックされた割合
  12. 50代のユーザによってクリックされた割合
  13. 60才以上のユーザによってクリックされた割合
このデータはQuery IDに対応するクエリが入力された時の, Question IDに対応する質問に対するクリック情報を表します. あるクエリ中でのある質問の順位は変動しうるため,3番目の項目は「最頻順位」を表します.
クリックスルーデータ中には440,163のクエリ-質問ペアが含まれています. 390,502クエリ-質問ペアについては質問に関する情報が"OpenLiveQ-question-data.tsv"に含まれていますが, それ以外のクエリ-質問ペアについては質問に関する情報が含まれておりません.

評価

オフラインテスト

適合性判定を行ったデータによる評価

オフラインテストは,後述のオンラインテストの前に行われ, ここでの成績によって参加者のどのシステムがオンラインテストに用いられるかが決定されます. 評価は通常のアドホック検索タスクと同様に, 適合性判定とnDCG (normalized discounted cumulative gain), ERR (expected reciprocal rank), Q-measureなどの評価指標を用いて行われます. 参加者はオフラインテスト期間中,本Webサイトから結果を1日1回提出することが可能であり, その場で評価結果を受け取ることができます.

適合性判定

オンラインテストと同じような評価結果を得るために, オフラインテストでは以下のような指示により,各質問の適合性を求めます: 「もしあなたがクエリ\(q\)を入力したと想定した場合に, 質問\(D_q\)のうち,あなたがクリックしたいと思う質問を全て選んでください」. 評価者には質問の本文を提示せず, Yahoo!知恵袋の検索結果ページに似たページ上で各質問の適合性を判断することになります. このような適合性判定の結果は,従来の適合性判定とは異なり, よりオンラインテストでの評価結果に近くなることが予想されます. 各クエリについて,複数名の評価者を割り当て, 各質問の適合度は「その質問を選択した評価者数」とします. 例えば,3名中2名の評価者がある質問を選んだ場合, その質問の適合度は「2」となります.

評価指標

利用される予定の評価指標は以下の通りです:
  • nDCG (normalized discounted cumulative gain)
  • ERR (expected reciprocal rank)
  • Q-measure

投稿方法

LinuxまたはMacで下記のコマンドを入力することで結果を投稿することができます:

curl http://www.openliveq.net/runs -X POST -H "Authorization:[AUTH_TOKEN]" -F run_file=@[PATH_TO_YOUR_RUN_FILE]

ただし,[AUTH_TOKEN]は参加者にのみ配布されます.

例えば,実際のコマンドは下記のようになります: curl http://www.openliveq.net/runs -X POST -H "Authorization:ORG:AABBCCDDEEFF" -F run_file=@data/your_run.tsv

以下の点に留意ください:

  1. 結果ファイルのアップロードには数分かかります.
  2. 各チームは24時間の間に1回のみ結果を投稿することができます.
  3. 投稿締切は3月31日 4月21日です.

評価結果(nDCG@10)がこのサイトの上部に表示されます. nDCG@10において上位10チームがオンラインテストにおいて評価されることになります. 評価結果の詳細は投稿締切後に送られる予定です.

オンラインテスト

実ユーザによる評価

提出された結果はMultileaving1によって評価されます. オフラインテストによって評価されたシステムのうち, 最大10システムに対してオンラインテストが行われます. Multileavingによって1つの検索結果に統合された提出結果は, オンラインテスト期間中に実ユーザに提示され, その期間中のクリックを収集することで各システムの優劣を決定します. オンラインテストでは,オフラインテスト時に提出した結果がそのまま利用されます. ただし,オンラインテスト開始前,または,実施中に何らかの理由により削除された質問は, オンラインテストでは除外されることになります.

ただし,各チームから投稿された結果のうち最も良い結果がオンラインテストで使用されることになります.

1 Schuth et al. "Multileaved Comparisons for Fast Online Evaluation." CIKM 2014.

オーガナイザ

  • 加藤 誠(京都大学)
  • 山本 岳洋(京都大学)
  • 藤田 澄男(ヤフー株式会社 )
  • 西田 成臣(ヤフー株式会社 )
  • 真鍋 知博(ヤフー株式会社 )