概要だけ:Discovering Value from Community Activity on Focused Question Answering Sites: A Case Study of Stack Overflow(KDD2012)

全然読めてないのでほかの方のエントリーを待ちたいところ.

 

http://www.cs.cornell.edu/home/kleinber/kdd12-qa.pdf

 

あらまし

QAサイトは今や知識の宝庫である.ほとんどのQAサイトは,当初は質問者に価値のある回答を提供することに狙いを付けたが,幅広い観衆に対し,終了した結果が,持続した価値のあるものとできる,コミュニティ駆動型知識創生過程として変化が現れた.この変化の一部として,主題の特殊なノウハウや深い知識は近い将来ますます重要になり,多くのQAサイトは,ユーザが内容の信憑性と適合性を確認する事に役立つようなデザインの最重要項として,投票と評判のメカニズムを導入する.

 一度限りの回答から集団の知識創作過程に着目した中で,この変化に関するより良い理解をするため,我々は質問とともに一致した解答の全体的な集合を基本的な分析単位とし,先行研究で特徴づけられた個々の質問解答のペアに着目したものを比較対象とする.我々の調査は,解答集合を形作るコミュニティの活動性のダイナミクスを考慮し,解答と投票が時間の経過でどのように到達するのか,この影響の最終的な結果はどのようなものかの両方について調査する.例えば,評判と回答スピード間の関係といった,回答者間の評判内の特有の同類性について観測する.そしてベストアンサーとして選ばれる解答の確率は,回答の到着の時間的な特徴に強く依存している.そこで,これらの特徴の我々の理解は,質問がよい回答を要求するかどうかと同様に,質問と回答の長期間の価値を含むような,いくつかの重要量を予測することに自然に適応する.最後に,QAサイトの設計に対してこれらの結果の密接な関係を議論する.

 

 使用データ

Stack OverflowというQAサイト.プログラミング関連に特化したもの.

特徴としては,

・解答に対して,ユーザが投票を行う.

・各ユーザが”評判点”を持つ

・点数は,ベストアンサーに選ばれる,投票の点数(+-どちらもあり),質問に付加価値を与える,などで変動する.

 

最終的にやりたいこと

・質問ページの長期的な興味・価値を予測する

・質問が,満足な回答を得るかどうかを予測する

 

今回は,特に質問に対する回答の時間(早さ)に焦点を当てる

 

○評判と回答の関係

・質問に対する回答の順序が早いユーザほど,そのユーザの評判も高い傾向がある

・質問に対するファーストアンサーが早ければ早いほど,回答がacceptされる可能性が高い

・質問者の評判と回答者の評判にはそれほど関係はない

・似たような評判を持つユーザは同じような質問な回答しやすい

・ファーストアンサーのユーザの評判が高いと,それ以降のアンサーの評判も高い傾向.逆も

・ファーストアンサーの方がPositive voteが低い(晒されている時間が多いので)

 

○質問の活動レベル

・回答者の評判が高いと,その回答に対する意見もPositiveになりやすい?

・回答数が多いほど,回答に対する意見がPositiveになりやすい

・回答数が多いほど,お気に入りの数が多い.

・回答数の多さは,ページビューに対するお気に入り率にはほとんど関係がない

 

○予測のタスク

学習にFeatureを利用する

・質問Feature

質問者の評判,質問に対する回答のAccept比など…

・アクティビティとQAの特徴量

お気に入り,ページビュー,質問のポジティブ・ネガティブ投稿など…

・コミュニティ特徴

回答者の平均・中央値評判,合計値など…

・時間的な特徴

解答間の平均・中央値時間,最も評判の高いユーザの回答順序など…

 

○質問ページの長期的な興味・価値を予測

今回は,質問がどのくらいのページビューになるかを予測する

 

・ベースライン

質問のお気に入り数,質問に対する(Positive意見-Negative意見)

・提案手法

先述のFeatureから8個を利用

 

結果

ベースラインは予測にほとんど寄与しない.一方,提案手法はベースラインより10%ほど予測率が上昇.

 

※関与するFeature

回答数が最も関係が強い.回答スコアの合計(回答スコアってなんだろ…)も高い.

 

○質問が,満足な回答を得るかどうかを予測する

今回は,k個の回答がついた質問が最終的に報奨金付きのものであるかそうでないかを予測する(?)

 

・提案手法

18Featureを利用.

・ベースライン

なし!!

 

結果

質問者の特性やページアクティビティ・質問解答の質が予測に大きく寄与している.一方,コミュニティ特徴や時間的な特徴はあまり寄与しない.