読んだ:Everyone's an Influencer:Quantifying Influence on Twitter(WSDM2011)

あらまし

本稿では,2009年の2カ月の間でFollowネットワーク上で起きた7400万の拡散した出来事を追跡することによって,160万のTwitterユーザの属性と相対的な影響を調査する.驚くべきことではないが,巨大なカスケードは過去に影響を持った,フォロワー数の多いユーザによって生成される傾向があることを発見した.また,メカニカルターク(Webサービスの一つ)の労働者によってより興味深いと評価され,そして(もしくは),より好感をもたれたURLはより拡散しそうであることを発見した.これらの直感的な結果があるにもかかわらず,我々は,特徴的なユーザやURLが生成するであろう巨大なカスケードの予測は,相対的に信頼できないことを得た.それゆえに,口コミによる拡散は大量の潜在的なインフルエンサーを標的にすることによって,信頼して利用され,それにより平均的な効果を得るにすぎないのではないかと結論付ける.最後に,潜在的な”インフルエンサー”の確認に対する補正の相対的なコストを定義することにより,統計的なマーケティング戦略について考慮する.その結果,いくつかの状況下ではあるが,最も影響を与えるユーザはまた最もコスト効率の良いユーザであり,広範囲のもっともらしい過程の下で,最もコスト効率のよい行動は”典型的なユーザ(平均的もしくは平均以下の影響しかない個々人)を使うことであると理解される.

 

今はMSに移った元やf(ryの研究チームの論文.

 

・使用データ

URLデータ…2か月間で収集したツイートからURLを収集.情報源ユーザは1.6M人で,平均投稿URLは46

Follow Graph…収集した期間内で少なくとも1つ以上のURLを投稿したユーザのフォーローデータ.ユーザ数56M,リンク数1.7B(1.7Bっていくつだろ…)

 

自分の近傍ユーザがURLを投稿したとき,そのURLを自分も投稿したら,近傍ユーザの影響を受けたと考え,情報拡散とする.

 

URLが投稿されたときに,影響力を計算するために,3つのパターンの情報の受け取り方を考える

1.最初に投稿した人

2.最近投稿した人

3.同値分割する

 

f:id:A_Koide0519:20120704212517p:plain

 

ノードの番号の意味がいまいちわからなかったりする…

 

・個々のユーザ影響力を予測する

回帰木を利用する

Featureとして以下のものを利用する

(1)ユーザ属性

・フォロワー数

・友人数

・ツイート数

・登録日

 (2)ユーザの過去の影響力

・総合の最小・最大・平均影響力

・最初の一か月での最小・最大・平均影響力

 

作成された回帰木では,平均影響力が大きくなるユーザは,フォロワー数1870人以上,近傍ユーザの平均投稿数が6.2以上である.

 

また,過去の影響力とフォロワー数には相関がある

 

回帰木は,各々の葉における予測平均値は極めて実際の値の平均値と近い値になるが,実際には平均無しの予測は悪くなる(?).それは,それほど大きくないカスケードの場合,ほとんどのユーザは今の属性だけでは不十分であることを反映している.

 

そこで,URLの内容をFeatureに加えていく.

・URLを選定(スパムの削除・影響力の大きいものの抽出など)

・これらのURLに対し,Amazon mechanicak Turkを使って人間によってURLに特徴を加えていく.

※アンケート形式

-サイトのクラス分類

-サイトかどのくらいそのクラスにフィットしているか0点から100点で採点

-サイトへの関心度(7段階評価)

-ユーザが好意を持つ度合い(7)

-ユーザがURLをシェアする手段

 

・これらの分類とカスケードサイズの関係

-URLのタイプとしては,Media sharng/Social Networkingがカスケードサイズが大きい.ニュースは低い

-カテゴリでは,Lifestyleカテゴリ,Technologyカテゴリなどがカスケードサイズが大きい.スポーツは低い

 

・ユーザの興味・好意とカスケードサイズの関係

-ユーザの興味・好意が高いほど,カスケードサイズも大きい

 

再び回帰木を作成

Featureを追加する

-興味度

-関心度

-情報発信手段

-URLのタイプ

-URLのカテゴリ

 

結果を見てみると,ほとんど前回の結果と変わらない!

今回の実験では,内容をFeatureを加えてあげても影響度予測には効かなかった.

 

※ただし,URLの手作業の部分の不足などの原因があるかも

 

・ターゲット戦略

コスト関数:c_i=c_a+f_ic_f

c_a:ユーザに対する固定した”獲得コスト”今回はc_a= \alpha c_f

c_f:”フォロワーに対するコスト”…ユーザが売り手に対してスポンサー料を要求する。

今回は0.01に設定

そして,定数 \alpha を0,10,100,1000,10000,100000に設定

 

f:id:A_Koide0519:20120704230654p:plain

 

 \alpha が100000を超えてようやく高い影響力を持つ人=コスト効率のいい人になる

 

10000のときでさえ,普通のユーザがコスト効率のいいユーザになっている.

 

 

ん~いまいち読めてないかなぁ…結構難しかった