メモ:Predicting Group Stability in Online Social Networks:WWW13

Predicting Group Stability in Online Social Networks

ソーシャルなグループはしばしば高度なダイナミズムを見せる.いくつかのグループが栄える一方で多くのもが時間の経過により消滅する.グループの安定性をモデリングし,グループが(いつ)安定して存続するもしくは時間の経過で衰退する(かどうか)を理解することは、多くの社会的な領域の中で重要なことだ.本論文では、グループの安定性ダイナミクスモデリング,予測の為に2つの異なったソーシャルネットワークを例に議論する.我々はグループが安定して存続するか帰還をへて衰退するかどうかを予測するためにモデルを構築する.我々は、メンバーの多様性の水準とソーシャルの活発さの両方が安定したグループの存続に重要であると観測した.また、一定の’多産な’メンバーがグループの安定した存続に重要な役割を果たすことを発見した.実験では,グループの安定性は高い精度で予測することができ,特徴の多様性が予測精度に重要であることを示す.


データセットその1

WoW(マルチプレイオンラインゲーム)のユーザ間交流,共闘,対戦相手3種類のデータを取ってある(対コンピュータ戦,対人戦,ローププレイング)ユーザは,ギルドと呼ばれるソーシャルグループにJoinして、同じギルドの人間と戦い,栄誉を得たり金銭を得たり(?)している.
47万人を超えるキャラクターが15000以上のギルドに入り,3つのサーバ(Eitrigg(PvE),Cenariton Circle(RP),Bleeding HollowPvP))

一つ目のネットワーク…ビルド間のメンバーネットワーク同じゲームゾーンに現れたユーザ間にリンクを張る
1.特定のゲームゾーンは削除
AFK(Away From Keybord対策)
2.偶然共起したユーザネットワークは?
大規模データだしリアルな相互関係が支配的でしょう

二つ目はメンバーシップネットワーク
ギルドとキャラクターがノードあるギルドにユーザが現れたら両者にエッジギルドは1つしか入れないので、辞めないといかん

この2つのネットワークを重ねたものを使う
heterogeneous network

無向ネットワークで多重を許容

統計データ
だいたい半年で20‐32%がギルドを一度はやめてる
ネットワークに入らないノードは除去
期間内でメンバーのいなかったギルドも同様
いくつかのギルドは期間内でずっと生き残ったけど、平均80日くらい(SD71.25)が寿命
ある期間内のギルドメンバーの増減でラベリング

・ギルド特徴量
1.ギルドの構成
ギルドのメンバー数
ビルドの継続日数
ギルド内のメンバーの平均レベル
ギルド内のメンバーのレベルの偏差
キャラクターの所属クラスの比率
クラス分布のエントロピー
キャラクターのカテゴリ分布のエントロピー

2.ギルド人口内でのゲームアクティビティ
ギルド内での平均プレイ時間
ギルド内のメンバー内との平均共同時間
全プレー時間に対する共同時間の比

3.ネットワーク
各ギルド内の平均クラスタ係数(全体ネットワークで計算)
各ギルド内の平均クラスタ係数(ギルド内ネットワークで計算)
次数分布のエントロピー

4日区切りでデータを収集
ギルド内のメンバーが4週間以内に15%以上減少したら、"shrink"そうでなければ"stable"のラベルを張る(1,0のバイナリ)
最終的な目標としては、4週間の特徴量からどちらか予測する

サンプルデータとして、それぞれのクラスラベルから2000ずつデータを取ってくる

・それぞれの特徴量とクラスラベルとの相関係数をとる
(ここらへんも相関係数が±0.1以上で重要な指標と言っていて、その根拠がよくわからない)
ギルドの安定性に重要な指標となりうる特徴量
1.ギルド構成…ギルドメンバー、ギルドの継続日数、キャラクターの所属クラスの多様性
2.ギルド内でのプレー時間、ギルド内での共同時間
3.ネットワーク指標…全部!

・特徴量とクラスラベルとの相互情報量をとり、特徴量の重要度でランキング
上位にはギルド構成の特徴量(メンバー数、クラス分布、クラス多様性等)

特徴量を使って予測モデルを構築
・使用モデル
ZeroR…常にshrinkingであるとする
Naive Bayes…
決定株…ギルド内のメンバー内との平均共同時間を特徴量として利用
J48木(決定木)
バギング…勉強しましょう
ランダムフォレスト…勉強しましょう

ランダムフォレストが最もよい(80%以上).続いてバギング、J48、ナイーブベイス、決定株

仮説1.一度衰退しはじめると推定し続ける?‐>そうでもないようだ


データセットその2
DLBP…メジャーコンピュータサイエンスのジャーナル、学会の文献データ

共著ネットワークを考える
異なったカンファレンス、ジャーナルを考えれば、一つ目のオンラインゲームネットワークと同じ扱いにできる
ただし、今回はグループからの脱退は考えず、複数グループに所属することを許容する(こちらの方がむしろ多くのオンゲーの共通の特徴らしい)

前回のように人数の増減を"shrink"、"stable"にできないので、モチベーションとして、人間のコミュニティへの関与のどあいを定量化するような指標が欲しい(これをメンバーシップスコアと呼ぶ)

exponential summarization kernelを使って、文献、著者、コミュニティを考慮した尺度を導入する(ヘテロなグラフ(ノードが文献、著者、コミュニティ)の成長に伴って、適宜重みを計算していく.パラメータによって過去の影響をどの程度受けるようにするか調整する)

個々人の各コミュニティでの関与スコアを計算(論文中ではKleinbergの例がでていて、理論系の会議からデータマイニングの分野へと関心が遷移していることが読み取れる)

この値をグループごとに足すことでグループごとのスコアを出す.(平均メンバーーシップスコア)
・多くのメンバーがしっかりと貢献すればするほどスコアが高くなる
・著名なメンバーが多いほどスコアが高くなる

メンバーシップスコアとHindex(科学的貢献度を計る指標)を比較
この値が、グループの安定性、衰退を図る指標として使えそう。(前回のオンゲーでいうところのメンバー数の遷移に該当するとする)今回のスナップショットは年単位で

DBLPでも同様の実験をする.
特徴量を3グループに
1.カンファレンス、グループの特徴
メンバー数
継続時間
メンバーシップスコア
平均多産度

2.文献活動
合計・平均共同数(グループ内外)
合計・平均論文数(グループ内外)
メンバーの忠誠係数…グループ内メンバーの、グループ内での論文と全論文の比

3.構造特徴
前回と同じ

相関係数、相互情報量

バギングを使って予測(決定木、ランダムフォレストもほぼ同様の結果)
90%のaccuracy


・既存研究との差分
1.WoWデータ
既存では、クラスタ係数の増加とメンバーの増加には相関があると言われていたが,WoWデータセットでは非常に弱い負の相関になり、余り影響を与えていないと言える
前回のスナップショットにたいする変化率とクラスタ係数もほぼ無相関
WoWのようなネットワーク(グループは)非拡散的に成長するらしい(?)

2.DLBPデータ
クラスタ係数と新しいアクティブメンバーの増加にはそこそこに正の相関がある
クラスタ係数とメンバーシップスコアは無相関
拡散を基盤とした成長だかららしい(?)

              • -

オンラインゲームやったことないのが一番響いた気がする.この辺の基本的なクラス分類の手法とか名前知ったまま放置しているし抑えないといけないですね.最後の方よくわからんかった