さらっと読んだ:Who Says What to Whom on Twitter(WWW2011)
あらまし
我々は,情報の生産,流通,消費とみなすことができるマイクロブログサービスのTwitterの中で,メディアコミュニケーションの研究内のいくつかの長年の課題を調査する.そのために,最近導入された"リスト"として知られるTwitterの特徴をエリートユーザの区別するために利用する-我々は,有名人,ブロガー,メディアの代表のはけ口,そのほかの公式の組織そして普通のユーザを意図している.この分類を基盤とし,我々はTwitter上での著しい注目の集団を見つける.消費されたURLのざっと50%はほんの2万人のエリートな有名人によって生成され,メディアがほとんどの情報を製造するが,有名人は非常にフォローされている.われわれはまた,カテゴリ内に重要な類似性を見つけ,それは有名人は有名人を話を聞く一方,ブロガーはブロガーの話を聞くなどである.しかしながら,ブロガーは一般的に,他のカテゴリよりもより多くの情報を再散布する.次に,我々はコミュニケーションの伝統的な"2ステップの流れ"を再調査し,Twitterでのそれに対する相当な支えを発見する.3つ目に,ユーザの異なったカテゴリ,または内容の異なったタイプを含む物によるURLの散布は,異なった生活期間を表す.そして最後に,我々は異なったニュースの話題に異なったカテゴリのユーザが払う注目を調査する.
・3つの主な貢献がある
1.エリートと普通のユーザ内のリストを使ってユーザを分類する手法を導入する.その上エリートユーザを関心のある4つのカテゴリ(メディア,有名人,組織,ブロガー)に分類する.
2.これらのカテゴリ間の情報の流れを調査し,観衆の注目がエリートユーザの少数に非常に集中しているにもかかわらず,彼らが作った非常に多くの情報が仲介者の大集団と通して間接的に大衆に達する.
3.ユーザの異なったカテゴリが,内容の異なったタイプを強調し,そして異なった内容のタイプは,異なった特徴的な生活期間を劇的に表し,それは1日よりも短いところから数カ月にも及ぶ.
・使用データ
●Twitter Follow Graph
WWW2010でKwakらが利用したデータ
42万ユーザと15億リンク
●Twitter Firehose
50億Tweetを収集.その中からURL省略サービスが使われている2億6千万Tweetに注目する.
●Twitter List
4000万ユーザのリスト.
タイプ分けするために,2つのサンプリング法を利用する
・Snowball sample
各々のカテゴリで種ユーザを選択.
- 有名人:オバマ,ガガ,ヒルトン
- メディア:CNN,New York Times
- 組織・団体:Amnesty International,Yahoo! Inc.とか
- Blogs:いろいろ
キーワードを手作業でえらび,キーワードとユーザの2部グラフになるようにサンプリングする
2ステップまで選択.
52万ユーザ・700万リストを収集
ただし,複数カテゴリに属するユーザがいるので,ユーザのカテゴリへの所属スコアを以下のように算出
はユーザiの中身でカテゴリcに属するリストの数
はカテゴリcに属する全てのリストの数
このスコアが高いところに所属
Snowballさんは便利で容易だけど潜在的なバイアスがあるんだそうだ.
・Activity sample
収集期間内で1週間に一度以上つぶやいた人の全リストを収集
これも一貫して活動的な人に対してバイアスがryだそうだ
75万ユーザ,500万リスト収集
ユニークカテゴリに所属させることで,11万程度のデータに
比率的にはどちらのサンプルも
有名人:メディア:団体:ブログ=1.5:4:1.5:3
という感じ(かなりアバウト)
・エリートユーザ分類
情報の流れを計る
エリートカテゴリに属するTopKユーザからランダムに選んだ普通の10万ユーザへの情報の流れを二つの方法で
- 各々のカテゴリをフォローするユーザアカウントの割合
- 各々のカテゴリをフォローするユーザの皆から受け取ったTweetの割合
この結果,どちらのサンプリングでも結果はほとんど変わらないので,これからはsnowballで評価.
・カテゴリごとにURLを含むTweet数と割合
通常カテゴリのユーザが当然一番多いが,単位ユーザあたりでは圧倒的にメディアカテゴリが多い
・誰か誰の話を聞くのか
情報の受け取り関係
- 有名人は有名人の情報を受け取る
- メディアもブログもその傾向は強い
- 一方,組織は自身よりブロガーにより注目している.組織カテゴリは割と他のカテゴリの情報に注目しているのは一般的な事実である
リツイートの関係
- ブロガーは多くのカテゴリのTweetをリツイートしている.
ーブロガーが情報の再配布・フィルターの役割を果たしている
・情報の2ステップの流れ
- Retweet(RT @user,via @user)
- 以前に投稿されたURLを張り付けたTweetを再導入として扱う
これらを評価するため,情報をメディアから直接受け取っているのか,仲介者から間接的に受け取っているのかを確かめる.
普通のユーザを,仲介者とランダムサンプリングした時のメディアとのかかわりを評価
- 仲介者はランダムより明らかにメディアに晒されている
- 仲介者は2ステップの流れに依存しない
- 仲介者はランダムよりフォロワーが多く,よりアクティブ
- 仲介者にも有名な人がいる
・誰が何を聞く?
1.各カテゴリユーザがNewYork Timesのどの分野のニュースをRTするのか
・全体的な特徴:World newsとU.S.NewsはRTされやすい
ブロガー:どれもそれなりにRT
有名人:スポーツが割と高く,健康は低い
メディア:U.SNewsが高い
組織:Artsが低い
other:どれも平均的
2.内容の寿命
寿命の推定手順について書いている
URLの寿命は基本的に70日以下と考えられる
3.カテゴリによる寿命
実際に各カテゴリのURLの寿命をみる
- 基本的には寿命が長ければ長いほどURL数はなだらかに減少
- ブログカテゴリの寿命は割と高い
- メディアカテゴリは2〜3日のあたりにピークが来る
・200日以上生き残ったドメイン
- youtube.com
- last.com
- amazon.com
など
・各カテゴリでの寿命に対する平均RT率
- 常人カテゴリはそのほかのカテゴリのRT率の20%程度しかRTされない
- 寿命30日くらいまでは有名人ユーザのRT率が高い
- それ以降は日によってRT率はぶれやすくなる
- 先行研究(WSDM2011)と矛盾しない結果だそうだ
ヤフーからマイクロソフトに移動してしまった方々の論文.
題名とあらましだけで論文を選ぶと割りとこういう分析の論文にあたることが多い.昔読めなくて投げた論文だったので改めて読んでみる.
読み飛ばして読んでいこうとすると割りと読みにくい感じでした.
大衆ユーザとエリートユーザに分けて…という話は割と自然な考え方であるけれども,細かいところまで色々やってるなぁ.