読者です 読者をやめる 読者になる 読者になる

JSAI2014行けなかったしいくつか読んでみる-複雑ネットワーク-

昨日は読んでいたら3時回っていて、駅まで全力ダッシュするはめになったので平日は自重気味で行く。

有向ネットワークの構造が情報拡散に与える影響の分析

ネットワーク構造と情報拡散の関係を明らかにするため、ネットワーク関する13個の指標を用意。ある一つの指標だけを変化させ、そのネットワークで情報拡散シミュレーションを行う。指標の増減と情報が伝わったノード数(以下期待影響度)との相関を見る事で、情報拡散と関連の強い指標を検出する。
その結果、ノード内次数相関と期待影響度に極めて強い相関がある事がわかった。ノード内次数相関が高いということは、任意のノードの入次数と出次数がほとんど同じ本数だけあるという事になる。
そのほか、到達可能率(任意の2つのノードの組み合わせに対してリンクをたどって到達できる比率)や次数相関に関連した指標が相関が高く出ている。
これらの結果を考慮したネットワークを作成してみると、高い到達可能率・ノード内次数相関によって最大の期待影響度を得る事が出来た。

※出次数と入次数の高いノード(hub)が多く存在すると期待影響度が高いネットワークかと言われると、hub自体は多くなくてもノード内次数相関を高く保ちつつ期待影響度の高いネットワークは出来る気がする。そういう意味ではhubの数と影響度の関係なんかも気になる。


単語のコミュニティ性に基づいた専門用語の抽出

例えば学会における論文から専門用語の抽出を行う際、論文の題目と概要しかわからないという制約が与えられている事は多く、その場合既存の手法ではあまり良い結果が得られない。そこで、専門用語にコミュニティ性という新しい概念を導入する。

専門用語は少数の専門家コミュニティで頻繁に使われ、一般的な用語は多数コミュニティで広く使われていると仮定し、このようなコミュニティ性を利用して単語の専門性を定量化するICF(Inverse Community Frequency)と、それを用いた単語スコア計算方を提案。

単語-論文-著者からなる3部グラフを構築。共著ネットワークをコミュニティ分割し、全コミュニティ数に対する任意の単語が出現したコミュニティ数r(w_i)を求める。
この値の逆数の対数に定数を乗じたものをICFと定義
ICF(w_i)=(log(\frac{1}{r(w_i)}))^\alpha
単語スコアは以下の式で算出
TF-ICF(w_i)=TF(w_i)*ICF(w_i)

実際にJSAIのデータを利用してその他の手法と比較してみると、提案手法は特定の分野で使われるような専門語に高いスコアがつく傾向が見られた。

※TF-IDFに変わる単語のスコア付与に関しては、去年のCIKMあたりで単語間グラフを作成するようなアプローチであったような記憶がある。アイデアは個人的に面白いと思ったけどちょっと評価が寂しいのがもったいない感じがした。

分散表現を用いたコミュニティにおける単語使用傾向の分析

コミュニティにおけるHomophily(類友)を調査。
TwitterのmentionNWをコミュニティ分割。それぞれのコミュニティ内のプロファイルと投稿で使われる単語を利用する。
コミュニティ間の類似度を表す指標として、ネットワークベースのものと単語ベースのもを用意。
ネットワークベースの類似度は2つのコミュニティ間のリンク数、単語ベースの類似度は2つのコミュニティ間で利用される単語群のがどれだけ似ているかで定義される。

まず、プロファイルからコミュニティをタグ付けすると、同じor近隣高校、同じor近隣大学、趣味の3つに分ける事が出来る。
コミュニティごとに使われ方が違う単語についてみると、[ミート]という単語は、オンゲーコミュニティでは肉、ディズニーコミュニティでは会う事を意味していた。
最後にネットワーク的な類似度と言葉遣い的な類似度の相関を見ると、高校コミュニティではネットワークとしては遠いが、言葉遣いとしては近い、大学では両方近い、趣味ではネットワークは様々だが言葉遣いは遠いという結果が得られた。
以上の事から、Homophilyは属性の近さによって似る場合と趣味があるので友達に成る場合の2種類がある事が示唆される。