読んだ:Measuring Message Propagation and Social Influence on Twitter.com(SocInfo10)

http://dsl.cs.ucdavis.edu/lab_website/papers/ye_socinfo_10.pdf

あらまし

オンラインソーシャルネットワーク(以下OSNs)の拡張した研究は行われてきたが,情報拡散と社会影響という,重要だが十分に定義されていない2つのタイプのソーシャルな振る舞いを特徴づける方法は明らかになっていない.本稿では,人気のあるソーシャル媒体であるTwitter.comの70万ユーザから収集した5800万Tweetの測定研究を示す.我々は一般的なメッセージの拡散パターンを分析し,速報ニュース(マイケルジャクソンの死)がTwitterを通じてどのように広がったのかを示す.さらに,社会影響の差異を安定性,評価,相関の調査によって評価する.本稿は,OSNs上のメッセージ伝搬と社会影響を測定するときに出会う挑戦と同様の複雑化を扱う.我々は,この結果が将来的なOSNsに対する価値のある見通しを提供する.


この論文で知りたいことは3つ

  • Twitterでメッセージがどのように伝播するか
  • どのようにしてTwitterでの社会現象を計測することができるか
  • 異なる影響がどのように互いに相関するか


2.データ収集

人気のあるメッセージソース
Twitter.com(38.0%)
・TweetDeck(11.8%)
・TwitterFeed(5.7%)
・5つの人気モバイルTwitterクライアント(21.1%)

人気Tweet(2タイプ)

  • インターネットスラング・短いフェーズ( LOL,Thanks,:( )
  • ウイルスやスパムによる自動Tweet

3.メッセージ伝播の測定

メッセージのリプライを時間順にソートし,トップダウンでユーザIDを検索.ユーザ間にリンクを付与することで数が分かる.

メモ:DAGにはならないような気がするけど,Hop数分かるのだろうか…

知りたいこと

  • メッセージはどのくらい遠くに伝播する?
  • メッセージの返信はどのくらい早いの?
  • メッセージは最後にどのくらい流れるの?
  • メッセージはどのくらい遠くに伝播する?

45%が1Hop,2,3は10%以下,40%弱が4Hop以上

メモ:FollowNWと一致するわけじゃない

  • メッセージの返信はどのくらい早いの?

25%の返信は67秒以内に生成,75%は16.5分以内に生成.
返信の平均は2.9時間だが中央値は3.5分,最大の遅延は20カ月.

メモ:一瞬合わせて100%じゃんと思って意味がわからなかったけど,16.5分以内に75%で残り25%がそれ以上遅いってことか…

  • メッセージは最後にどのくらい流れるの?

25%のメッセージは2分以下の持続,75%は1時間の持続.
返信の平均は6時間だが中央値は8.9分.


4.速報ニュースの伝播の測定

マイケルジャクソンの死に関するTweetで調査.
Tweet数では,亡くなってから12日後に異常にTweet数増加.その後16日〜60日は安定したTweet数になる.

ユーザカバー数は,最初の15日で急速に増加し,70日で900万ユーザをカバーする(Twitterグラフの12%)

マイケルジャクソンについて少なくとも一回つぶやいた人(投稿者)の増加数とユーザカバー数を比較すると,最初は投稿者が全体の5%でカバー数が20%だが,12日目でカバー数を超える.

結局,後半はすでに早期の投稿者によってカバーされているので,わずかな新ユーザがカバーされる.これは,スモールワールド効果を表してる.

5.社会影響の測定

  • フォロワー影響力(F)

ユーザがフォロワーを持てば持つほど影響力が強い
※今回は扱わない

  • 返信影響力(R)

多く返信をもらうユーザ程影響力が強い
単純返信数の数:R_M,返信のユニークユーザ数:R_U

  • リツイート影響力

単純リツイート数の数:RT_M,リツイートのユニークユーザ数:RT_U

データセット
各Tweetをタイムスタンプでソートして,最初の50%と後の50%に分割し,返信・リツイートで順位付けする

メモ:この分割の仕方だと,片方には登場して片方には出ないユーザいなのかな…でもTopユーザだけをみているから問題ないのかな

評価手法
スピアマンの順位相関
f:id:A_Koide0519:20120609234214p:image

ケンドールのry
f:id:A_Koide0519:20120609234206p:image

結果1
まずは同じ要素同士の前半と後半の順位相関をみる
R_uが最も順位の重複率が高い
RT_{U}が順位相関が高い

結果2
RT_MRT_Uの順位相関
Top1000は順位相関もスピアマンで0.83,重複度も82.5%で高いけど,Top10000とかになると順位相関はやや下がる.でも重複度はほとんど変わらない.ケンドールはスピアマン−0.2位

結果3
R_MR_Uの順位相関
結果2に比べると全体的に低い.特に順位の増加で急激に悪くなる.リプライ分布の傾きの急激さが原因であると推測される.

・影響力間の相関

各影響度のランキングリスト間の距離D(i,j)を求める.
ここで,i,jは上記の各影響度,Dは上記の相関と重複度
そして, \eta = \sum^{}_{j \neq i}D(i,j)を計算

結果
R_M > R_U > RT_U > RT_M > F


大規模データを使った情報拡散と社会影響に関する分析
この研究は自分のやっていることと結構かぶるのでもう少し早めに見ておきたかった…
個人的には,一つの話題ではなくてもう少し色々な話題の拡散を調査して特徴が見つかるといいなぁと思う.
ページは多かったけど読みやすかった.