読んだ：Information Credibility on Twitter（WWW2011）

http://www.ra.ethz.ch/cdstore/www2011/proceedings/p675.pdf

あらまし

人気のあるマイクロブログサービスであるTwitterと通じて伝播するニュースの信頼性について分析する．既存研究により，Twitterで投稿されたほとんどのメッセージは真実であったが，このサービスはまた，間違った情報やうわさを，しばしば故意ではなく広げることに使われていることが示されている．

本稿では，与えられたTweetの集合の信頼性を断定するための機械的な手法に着目する．とりわけ，”トレンドの”トピックに関係したマイクロブログの投稿を分析し，それらから抽出した特徴を基盤としてそれらを信頼しているものと信頼していないものにクラス分類する．我々は，ユーザの投稿，再投稿(RT)のふるまい，投稿の文章，外部ソースからの引用の中から特徴を用いる．

我々の手法を，Twitter投稿のサンプル上での項目の信頼性についてかなりの数のユーザの判定用いることで評価する．結果として，適合率と再現率が70~80%であることを伴い，メッセージの伝播の方法の中に，信頼するもの，信頼しないものとして自動的に分類するのに使うことができる，ある程度の差異があることを示す．

データ

・Twitter上の出来事の抽出

「Twitter Monitor」…Twitter上でバーストした話題を抽出できる(2,500トピックとそれに関連したツイートを抽出)

データのアノテーション

1．情報価値のあるトピック判定

・Mechanicak Turkを利用し，アンケート

各々のトピックについてのTweet10と，Twitter Monitorで収集したキーワードを見た時に，それが特有の出来事である(情報価値がある)か，大部分がコメントや語彙であるかを分類．

-NEWS：情報価値のあるもの(29.5%)

-CHAT：情報価値のないもの(34.9%)

-UNSURE：どちらともいえない(35.6%)

2．信頼性の判定

・Mechanicak Turkを利用し，アンケート

情報価値のあるトピック747個についてのTweet10を見た時に，その内容が信頼できるかできないかを判定してもらう．

-ほぼ間違いなく真実(41%)

-嘘かもしれない(31.8%)

-ほぼ間違いなく嘘(8.6%)

-あいまい(18.6%)

・機械的信頼度分析

信頼度に寄与するであろうソーシャルメディアの特徴を利用する

-メッセージ基盤の特徴…メッセージ数，P/N判定，ハッシュタグ，RT

-ユーザ基盤の特徴…フォロー数，フォロワー数，ツイート数

-トピック基盤の特徴…URL・ハッシュタグ・P/Nを含むツイートの割合

-伝播基盤の特徴…リツイート木の深さ，各トピックの初期ツイート数(情報源数？)

・情報価値のあるトピックの自動発見

教師ありクラス分類のタスクで解く．ラベルは先述の人手で分類したものを利用する．

いくつかの手法を利用(SVM，決定木，決定ルール，ベイジアンネットワーク)した．比較したところ，J48決定木が最も良いけっかを出した．

89%がうまく分類できた．

NEWSではF値で0.924，ほかの二つは87%

・信頼度のタスクにおける特徴分析

747個のNEWSトピックのデータを利用

15個の特徴を利用

ラベルは

A：ほぼ間違いなく真実

B：嘘かもしれない，ほぼ間違いなく嘘

-活動的なユーザと，フォロワーとフレンドを多く持つ新たなユーザが信頼度の高い情報を広めやすい

-P/Nのツイート比が信頼度に大きくかかわる

-？の付いたツイートや笑顔の顔文字がつくと信頼性が低下する

-拡散木が大きいほど信頼度は上がる

・信頼度の自動判定

分析手法は先述のものと同じ

精度は86%

クラス分類の結果

A(true)：F値0.849

B(false)：F値0.87

決定木

f:id:A_Koide0519:20120705195231p:plain

1．URLを有しているTweetであるかどうかは非常に重要(root)

そして，？マークの存在やP/Nの結果も決定木の上位の階層．また，Negativeな内容は信頼度を高めやすい

2．過去にほとんどつぶやいていない人が拡散する情報は信頼度が低い．

友人数も関係

3．RT数は情報の信頼度に作用

・特徴レベルでの信頼度分析

4つのFeatureごとに信頼度のクラス分けタスクを行う

1．テキスト：ツイートの語数，感情，URL，ハッシュタグなどの20Feature

2．ネットワーク：フォロワー，フレンドなどの7Feature

3．伝播：リツイート比，総ツイート数など6Feature

4．上位属性：もっとも頻度の高いURL，ハッシュタグなど含んでいるツイート比などの4Feature

信頼できるか判定をするには，上位属性を使うのが最も良い…精度0.727

信頼できないかどうかを判定するには伝播を使うのが最も良い…精度0.909

総合的には上位属性がよい

また，Feature間の相関を調査したところ，ほとんど相関はないこともわかった

よく分析してあるなぁ・・・

Featureの数は論文を見るとわかるように、相当な数を扱っている

これがWWWにとおる論文か…