ざっと読んだ:measuring user influence in twitter the million follower fallacy ICWSM10

http://snap.stanford.edu/class/cs224w-readings/cha10influence.pdf

 

あらまし

ソーシャルメディア上の有向リンクは,親密な友人関係から共通の興味,もしくは緊急ニュースに対する熱狂,有名人の噂話まで全てを表現する.各々のリンクは情報の流れを決定し,その上他人へのユーザの影響度を表す-それは社会学やバイラルマーケティングに必須の考えである.本稿では,Twitterより収集した大規模データを利用し,影響力に関する3つの尺度,入次数,リツイート,そしてMentionのより深い比較について述べる.これらの尺度を基盤とし,トピックと時間を通じてユーザの影響度のダイナミクスについて調査する.我々はいくつかの興味深い観測をした.最初に,有名ユーザ(入次数の高いユーザ)は,リツイートやMentionに関してそれほど影響を必要としない.2つ目に,最も影響力の高いユーザは,多彩なトピックで著しい影響力を保つ.3つ目に,影響力は自発的に,または突発的には得られるのではなく,例えば単体トピックに制限されたツイートのように,力を合わせることを経る.我々は,これらの知見がバイラルマーケティングの新たな見識を提供し,そして入次数単体ではユーザの影響力は非常に小さいことを明らかにするような形態的尺度を提案することを願っている.

 

特徴:超大規模データであること

Follow-Follower graph

ユーザ数:5400万

リンク数:20億

ツイート数:17億

 

※と思ったらアクティブユーザで600万にしているし,さらにその中で各指標のTop100ユーザしか見てない.前に参加したWSDM勉強会で@さんが発表してくださった論文でも同じような話あったなぁ.

 

貢献

1)入次数はユーザの人気,リツイートはツイートの内容に対する価値,Mentionはユーザのネームバリューを表す.また,上位ユーザはいくつかの重複を持つ

2)効率的にユーザへ広告するために,トピック間で影響力がどう違うのか調査.その結果,影響力の強い人はどのトピックでも強い.

3)普通のユーザは,単一のトピックに焦点をあて,多くのユーザに価値があり,他人と語り合って対比できると認められ,創造的で洞察力のあるツイートをすることで影響力を獲得できる.

 

各指標の高影響力ユーザを対象(600万ユーザ)

 

○各影響力の関係

 

各指標のTop100ユーザの比率を重複も考慮してベン図にすると,お互いにやや重複が見られる.

各指標間の順位相関(スピアマンの順位相関係数)

Indegreeはどの指標に対してもあまり相関が高くない.リツイートとMentionの順位相関は高い.

 

※順位相関って,比較する2変量のユーザ集合は同じじゃなくても計れるの…?例えば,この論文では,Top1%とかではかっているけど,片方にいるユーザがもう片方にいるとは限らないと思うのですが,それでも計れる物なのだろうか.

 

○トピックと影響力の関係

 

ここで,すでにIndegreeは登場しなくなる

3つのトピックでの影響力を調査(イラン戦争,新型インフルエンザ,マイケルジャクソン).このトピックに関連する単語を含んだツイートがどれくらいRT,Mentionされたか.

どのトピックでも,リツイート数はユーザの影響力ランキング相関がある.高影響力ユーザは,高影響力ユーザであり続ける傾向が強い.

 

○時間経過による影響力の増加

8ヶ月間で,上位ユーザの影響力はどう変わるか

各ユーザのリツイートorMentionされる確率を15日単位で見ていく

ユーザを3つにわける(入次数の上位233ユーザ)

・ニュース配信

・有名人

・これらのMix

 

どのユーザも時間経過によって,リツイート/Mention確率が上がる(分散は大きい気が…)

 

○普通のユーザが如何に影響力を大きくさせるか

3つのトピックに対して,どれか一つのトピックにしかつぶやいていな人をピックアップ.これらのユーザの各トピックの時間経過に対するリツイート,Mention確率を求める.

 

一つのトピックにつぶやく人は,瞬間的にリツイート確率が上昇.限定したトピックに対してつぶやくユーザは,そのトピックの盛り上がりに反応して急激に影響力が強くなる.

 

 

流し読みだからかも知れないが,主張点に対して実験でそれが示せている感じがあんまりしなかった.あと,個人的にはIndegreeは少なくともRetweetともっと相関がある気がするし,Mentionとリツイートに相関が強いのは,リツイートがMentionのSubsetであることからも当り前な気がする.(もう一つはReplyだけど,こちらはそこまで多くの数がこなされることはないとおもうので)

トピックに対して影響力が頑健というのは,それなりのトピックで試す必要がありそう.同じようなことをやる可能性はあるので,もう少し自分の思うところを考えて実験してみたい.

 

データセットのところは盛るだけ持って実際は…っていうのもあるし,順位相関はどうなってるのだろう…