読んだ:comparing information diffusion structure in weblogs and microblogs(ICWSM2010)
あらまし
マイクロブログの社会的な手段が明らかになるようなよりよい理解と特徴づけの為に,我々はTwitterとWeblogネットワーク間の各ネットワーク上での情報拡散構造に対する比較を行う.我々は二つのソーシャルメディア間の投稿,運用,構造的なパターンの相互作用の組織的な差異を発見した.発見は,ソーシャルメディアの設計空間の内でのマイクロブログの特有の役割や特徴を明らかにした.意味合いも議論される.
データ
1.マイクロブログ
TwitterのTweetを一カ月間収集.ただし文字列”http://”を含んでいるもの
ユーザ数:3,243,437,投稿数:22,241,221
2.Weblog
5ヶ月間のブログデータ収集
ブログ数:59,048,投稿数:342,723
投稿分布
Weblogは投稿数20あたりで少し投稿数が上昇する.また,やや崩れた形になる
投稿スピード
2つの投稿の間隔が一番短くなったところで比較
月に30投稿以下のユーザの最小投稿間隔はマイクロブログがWeblogの1/10程度の間隔であった.40以上になるとほとんど変わらなくなる
運用パターン
Twitterは2つのタイプのリンクがある(URLとMention)
・Weblogの方がリンク含有量が高い60%
・Twitterは25% ,Mentionには35%程度
Twitterは自己表現や対話に加えてWeb上の参照や運用能力も有している
メモ:TwitterのデータはURLを含むものだけ使っていた気が…リンクはどの投稿にもついているんじゃないのか?
WeblogはWeblog内で言及されることが多い(85%),外部のWebサイトへは14%,マイクロブログへは1%.
マイクロブログは内部よりもWebサイトへの言及が高い(93%),内部へは2%,Weblogへは5%.ただしMentionは35%はマイクロブログ内に言及する.
Weblogのリンク先は様々なサイトに向けられている.
Twitterのリンク先は限られたサイトに多くリンクが張られている.Twipic,youtube,facebookなどのソーシャルメディアとつながる傾向が強い.
ネットワーク構造の特徴
WeblogのハイパーリンクネットワークとTwitterのMentionNW
SCCの最大連結成分はWeblogで14.6%,Twitterで13.6%
メモ:手持ちのMentionNWはもう少しおおきかったような.日本人固有の何かが効いているかも
サブグラフの可視化結果で比較すると,Weblogの方が割りとつながる傾向が強く,Mentionはほとんど2者間のつながりしかない
ネットワークモチーフ分析
Miloらによって示されているネットワークのサブグラフ構造を計る指標
同規模のランダムネットワークと比較してオリジナルネットワークに有意に出現するサブグラフ構造を調査する.
モチーフパターン
実ネットワークの大きな特徴として,3つのノードが密接につながる傾向がある.
ID8のようなモチーフパターンは,Weblogではほとんど出現しないという意味で,実ネットワークの特徴的な構造.
ID13は実ネットワークに対してランダムで全く出現しないので,実ネットワークの特有の特徴(論文中では,モチーフの一般的な評価指標であるz-scoreが余りにも大きいので記載できないと書かれている).
ID4はランダムネットワークで特徴的な構造だが,Weblogではそれ以上に頻出のもの
メモ:ID13はランダムネットワークでは一つも出現しないことがありうる.そうすると,この論文で使っているz-scoreという指標が定義できなくなるので,載せていない可能性がある.ここでいうランダムとは,各ノードの入出次数は不変のネットワークだと思われる.
Weblogはグローバルに干渉的であり,マイクロブログは,分散的で,局所的なつながりがある.
情報拡散の要素がちょっとよくわからなかった…
そしていつも話題になるデータのスケールの問題.このデータはだいぶ異なったデータ数,収集期間だけどいいのだろうか…
4Pなのであまり時間かけずに読めた