読んだ:comparing information diffusion structure in weblogs and microblogs(ICWSM2010)

http://www.google.co.jp/url?sa=t&rct=j&q=&esrc=s&source=web&cd=1&ved=0CFgQFjAA&url=http%3A%2F%2Fwww.aaai.org%2Focs%2Findex.php%2FICWSM%2FICWSM10%2Fpaper%2Fdownload%2F1467%2F1897&ei=ES_hT82GEIjcmAW5oKGhDQ&usg=AFQjCNG38MRaRTyrX51FU3MBzieKB3mvcQ&sig2=XaRvkkp3KxX01zu0Ij70VA こちらから

 

あらまし

マイクロブログの社会的な手段が明らかになるようなよりよい理解と特徴づけの為に,我々はTwitterWeblogネットワーク間の各ネットワーク上での情報拡散構造に対する比較を行う.我々は二つのソーシャルメディア間の投稿,運用,構造的なパターンの相互作用の組織的な差異を発見した.発見は,ソーシャルメディアの設計空間の内でのマイクロブログの特有の役割や特徴を明らかにした.意味合いも議論される.

 

データ

1.マイクロブログ

TwitterのTweetを一カ月間収集.ただし文字列”http://”を含んでいるもの

ユーザ数:3,243,437,投稿数:22,241,221

2.Weblog

5ヶ月間のブログデータ収集

ブログ数:59,048,投稿数:342,723

 

投稿分布

マイクロブログは綺麗なべき則分布

Weblogは投稿数20あたりで少し投稿数が上昇する.また,やや崩れた形になる

 

投稿スピード

2つの投稿の間隔が一番短くなったところで比較

月に30投稿以下のユーザの最小投稿間隔はマイクロブログWeblogの1/10程度の間隔であった.40以上になるとほとんど変わらなくなる

 

運用パターン

Twitterは2つのタイプのリンクがある(URLとMention)

マイクロブログWeblogのリンク統計量

Weblogの方がリンク含有量が高い60%

Twitterは25% ,Mentionには35%程度

Twitterは自己表現や対話に加えてWeb上の参照や運用能力も有している

 

メモ:TwitterのデータはURLを含むものだけ使っていた気が…リンクはどの投稿にもついているんじゃないのか?

 

Weblogマイクロブログの内部での言及

WeblogWeblog内で言及されることが多い(85%),外部のWebサイトへは14%,マイクロブログへは1%.

マイクロブログは内部よりもWebサイトへの言及が高い(93%),内部へは2%,Weblogへは5%.ただしMentionは35%はマイクロブログ内に言及する.

 

Weblogのリンク先は様々なサイトに向けられている.

Twitterのリンク先は限られたサイトに多くリンクが張られている.Twipic,youtubefacebookなどのソーシャルメディアとつながる傾向が強い.

 

ネットワーク構造の特徴

WeblogハイパーリンクネットワークとTwitterのMentionNW

相互リンクはWeblogで2.3%,Twitterで7%

SCCの最大連結成分はWeblogで14.6%,Twitterで13.6%

メモ:手持ちのMentionNWはもう少しおおきかったような.日本人固有の何かが効いているかも

 

サブグラフの可視化結果で比較すると,Weblogの方が割りとつながる傾向が強く,Mentionはほとんど2者間のつながりしかない

 

ネットワークモチーフ分析

Miloらによって示されているネットワークのサブグラフ構造を計る指標

同規模のランダムネットワークと比較してオリジナルネットワークに有意に出現するサブグラフ構造を調査する.

 

モチーフパターン

f:id:A_Koide0519:20120620123802p:plain

 

実ネットワークの大きな特徴として,3つのノードが密接につながる傾向がある.

ID8のようなモチーフパターンは,Weblogではほとんど出現しないという意味で,実ネットワークの特徴的な構造.

ID13は実ネットワークに対してランダムで全く出現しないので,実ネットワークの特有の特徴(論文中では,モチーフの一般的な評価指標であるz-scoreが余りにも大きいので記載できないと書かれている).

ID4はランダムネットワークで特徴的な構造だが,Weblogではそれ以上に頻出のもの

 

メモ:ID13はランダムネットワークでは一つも出現しないことがありうる.そうすると,この論文で使っているz-scoreという指標が定義できなくなるので,載せていない可能性がある.ここでいうランダムとは,各ノードの入出次数は不変のネットワークだと思われる.

 

Weblogはグローバルに干渉的であり,マイクロブログは,分散的で,局所的なつながりがある.

 

情報拡散の要素がちょっとよくわからなかった…

そしていつも話題になるデータのスケールの問題.このデータはだいぶ異なったデータ数,収集期間だけどいいのだろうか…

4Pなのであまり時間かけずに読めた