ちょっとメモ:Community QA Question Classification :Is the Asker Looking for Subjective Answers or Not? (ToD2011)
http://research.microsoft.com/en-us/people/tesakai/ipsj-tod0402002.pdf
自分が参加したWebDB Forum2010での論文賞論文の一つ.当時は発表を聞いても何もわからなかったので読んでみた.
Yahoo!知恵袋や教えてGooのようなCQAサイトにおいて,”主観的”な回答を欲している質問か”客観的”な回答を欲しているかを分類するタスク.
この分類の意義として,主観的な回答を欲している質問の場合には,回答者への回答を求めるし,客観的な回答を欲している質問の場合には,Web検索や類似質問の回答から回答を見つける方が,よりユーザが求めている回答に近いと考えられる.
○質問を学習するための定義
●主観的な質問…質問者がより主観的な回答を期待しているもの
主観的回答とは
・共通知識や一般的な事実をベースとしたもの
・事実,定義,手法,方法など
・このような質問では,IRやQAの技術を利用して自動で回答を探せばよい
●客観的な質問…質問者がより客観的な回答を期待しているもの
・回答者の個人的な意見や判定が反映される回答
・意見,議論,思いなど
・このような質問にたいしては,システムとして積極的に回答を提供するように人々を刺激する
●具体例
客観的質問
”シャーロックホームズの著者はだれですか?”
”NEETの意味はなんですか?”
とはいえ,こんなシンプルに分類できる質問は少ない例えば,
”オーロラソースの作り方を教えてください”
は客観的な質問だが,回答は一つとは限らない.また,
”あなたの家でのオーロラソースのレシピを教えてください”
は主観的な質問になるという感じ.
そこで,今回は,”personal”なのか"general"なのかという部分に着目する.
主観的な質問とは”回答者の個人的な意見や判断を直接的に反映したもの”
客観的な質問とは”高度なノウハウを持った回答者によって提供された単一の回答によって質問者を満足させたもの”
として,アノテーションする.
○分類法
・ナイーブベイズ
○特徴量
・cue words…動詞,名詞,終助詞
・n-gram word…(n=1,2,3)
・係り受け?(CaboChaを使用)
・極大の繰り返し(多分極大部分文字列.@nokunoさんの記事が大変わかりやすかったです)
12/21追加:ソースより,極大の繰り返し(Maximal repeats)とは,2回以上繰り返される部分文字列で,右にも左にもより長く文字列を伸ばすことのできないもの.だと思う.
※結局この特徴量をどのように判別器に組み込むのかがよくわからなかった…
○データセット
・Yahoo!知恵袋の3,116,009の質問から,1500個を抽出.
・1000個を学習データとして,500の質問を分類する
・2人にアノテーションしてもらう
・アノテーションのタイプは
1.間違いなく主観的
2.たぶん主観的
3.たぶん客観的
4.間違いなく客観的
・評価尺度として,weighted accuracyを利用する.アノテータが自信をもってつけた(1とか4とか)質問で,予測結果も正解だった場合には高い得点を与える.
○結果
・80%以上の精度で分類可能
・weighted accuracyの方がstandard accuracyよりも高い
・ナイーブベイズの方が精度高い
・極大繰り返し+ナイーブベイズの組み合わせは精度がよい
・1-gram,2-gram+ナイーブベイズの組み合わせは精度がよい
・3-gramはむしろ精度を下げてしまっている
などなど
※アノテータの違いも結果に変化を与える
●失敗分析
・学習データの不足…学習データの増加が精度向上,過学習の現象に役立つ
・うまくいかなかった質問…”ヒロシ(芸人)ってだれ?”日本人の一般的な名前だけど,この瞬間には芸人のことを指していた
・SVMは別のものでやったらもっとうまくいくかも
・tri-gramはむしろノイズを入れてしまっている
メモ
一番気になるのは”カテゴリ”を考慮しなかったのかなぁという点.例えば”PC”カテゴリはSubjectiveな質問が多いだろうし,”恋愛”カテゴリはObjectiveな質問が多いと考えられるような気がする.カテゴリごとに評価した結果とか見てみたいかも…