KIWAM_KEN_DIARY

読んだ：Analyzing Patterns of Information Cascades based on User's Influence and Posting Behaviors（TempWeb12）

論文

http://www.tkl.iis.u-tokyo.ac.jp/top/modules/newdb/detail.php?id=1167

あらまし

昨今人々はTwitterやFacebookのようなソーシャルネットワークサイト上で有益な情報を共有することができる．情報は友人から友人へ繰り返し送られる，またはコピーされるとき，ネットワーク上で広がっていく．この現象は”情報カスケード”と呼ばれ，それが時に実世界で影響を持つことから長きにわたって研究されてきた．種々のソーシャルな活動は，ソーシャルネットワーク上でのカスケードの経路に違いがある傾向がある．この研究の我々の焦点は，種々のトピック内でのユーザの影響力と投稿のふるまいによるカスケードパターンの特徴づけである．カスケードパターンは広告活動の活発化のための戦略を熟考するための様々な組織に対して有用である．我々はカスケード比，ツイート比，ツイート時刻，露出曲線の4つの尺度を探索する．我々の結果は，これらの尺度の観点から，異なったトピックのハッシュタグは異なったカスケードパターンを有することを示す．しかしながら，いくつかのハッシュタグは同じトピックであるにもかかわらず異なったカスケードパターンを持つ．我々は各々のトピック間の潜在的な関係は，驚くべきことにツイートの内容を考慮するよりたった4つの尺度を利用することで明らかにすることができることを発見する．最後に，我々の結果はまた，カスケード比とツイート時刻が，異なったトピックの中でのカスケードパターンを区別するためのもっとも効率的な尺度であることをしめす．

東大の豊田・喜連川研究室の研究チームの論文．

ハッシュタグのクラスタリングをツイート内容を使わずに行っている．

・使用データ

地震，報道，政治，娯楽，スポーツ，イディオムのカテゴリに分けたハッシュタグ

今回は4つのFeatureを利用．

1．Cascade Ratio

f:id:A_Koide0519:20120629202522p:plain

ハッシュタグの情報の流れ．tは時刻

f:id:A_Koide0519:20120629202536p:plain

$C(u,h)$ は $u$ がハッシュタグ $h$ をつぶやいたのち $u$ とリンクしているユーザがハッシュタグ $h$ をつぶやいたユーザ数

$U(h)$ はハッシュタグ $h$ をつぶやいたユーザ数

※政治カテゴリではほかの近傍ユーザが呟いてからつぶやくユーザが多い

2．ツイート比

f:id:A_Koide0519:20120629202543p:plain

$T(u,h)$ はユーザ $u$ がつぶやいたハッシュタグ[h]を含むツイート数

※政治カテゴリでは同じカテゴリのハッシュタグを何回も利用してつぶやく

※地震・報道・イディオムではほとんど同じハッシュタグは使われない

3．ツイート時刻

ユーザが最初にそのハッシュタグについてつぶやいたツイート間の時間差？

※地震カテゴリは短い間隔でのつぶやきが多い

4．露出曲線

Romeroらの手法(http://vip2.uvm.edu/~cmplxsys/newsevents/pdfs/2011/kleinberg-hashtags-2011.pdf)

f:id:A_Koide0519:20120629202549p:plain

$I(k)$ 近傍ユーザ $k$ 人がハッシュタグ $h$ をつけてつぶやいたのちに自分がつぶやいたユーザ数

$E(k)$ 近傍ユーザ[tex;k]人がハッシュタグ $h$ をつけてつぶやいたユーザ数

※スポーツカテゴリではほとんど近傍ユーザを介することなくつぶやかれる

これらのFeatureを使ってハッシュタグをクラスタリングする．

k-meansを利用．初期値で結果が変わるので $k=5,6,7$ のそれぞれで5回づつ実験し，正規化相互情報量を使って評価．

これを使うと，クラスタリングの品質評価ができるらしい．

今回は，Featureをすべて使ったときと，各々のFeatuteを一つづつ除いた時のクラスタリング結果を比較．

そうすると，カスケード比がないときと，時間間隔がないときのクラスタリングの品質が下がった．

クラスタリングの結果では，メディアカテゴリはTV・ブログ・政治に分かれてクラスタリングされている．娯楽とスポーツも同じカテゴリに入っているが，これは個人の趣味関心の影響を受けていると考えられる．

これらの結果から，ツイート文章を見るのではなく，トピック間の隠れた関係を発見できている．

今回は500ハッシュタグを使っているが10000くらいになったらどうなるかな．また，Mentionツイートでも同様の手法である程度特徴づけができたりするだろうか．

そういえばどこかで似たようなものを見たことがあると思ったら，去年のSoC2011で発表していたものがさらに発展された研究だった．

Romeroらの露出曲線の研究は面白いけど軸がそろってなかったりしていろいろうまくやっているよね～と研究室で少し話題になっていたけど，今回の結果でもスポーツカテゴリ以外はほとんど結果変わってなかったし微妙な気がした．