JSAI参加してないメモ2

リツイート時系列の 3 パラメータ混合対数正規分布モデルによる分析

Twitterのリツイートストリームの特徴を表現できるモデルを構築.

リツイートは、早い段階で爆発的に拡散してあとは全く拡散しない、というものだけでなく、一度バーストして少し時間が空いて再びバーストする…というのもを存在する
→ネットワークのクラスタ構造が影響しているのではないかと想定

ツイートを受け取ってから自分がリツイートするまでの時間遅れは対数正規分布に従うとする.(既存研究)
それを、複数のバーストや分布の滑らかさを表現できるように拡張する.バーストの数だけの混合対数正規分布を考え、そこに時間遅れパラメータ(分布の平行移動)を加味したモデル(計3つのパラメータ)

時間遅れパラメータの推定にはプロファイル尤度なるものを使う.バーストの数はKleinbergのバースト検出法を利用.他のパラメータはEMアルゴリズムで推定.

実験として、10分単位で切ったツイート頻度のヒストグラムを確率密度関数とし、それに対して提案手法と既存研究でフィッティングさせてみる.

見た目的にはうまくフィットさせられているように見える.が、うまくいかない物も多いらしい.

混合数が多かった物のパラメータを利用してクラスタリングすると、やっぱり一日以内の爆発的なリツイートの傾向が強かった。

                              • -

複数の手法を組み合わせた提案手法で、精度はよくなりそうだけど、うまくいかなかったところも多いのは意外だった.
短い期間でバーストするものが大部分ということで、今回の提案手法のよさが若干薄れたような印象を受けたけど、そんなこともないのかな…短い期間でバーストしたらそこまで複雑な混合分布にはならないような気がするので.実際に混合数が多いツイートってどんなのなんだろう.



Twitter ネットワーク上のユーザコミュニティ抽出と話題分析

インフルエンサーが中心となるコミュニティの実態把握.
Twitterのデータを利用する.

ある2つのキーワードに関してつぶやいた人を抽出.
その中からインフルエンサーを抽出する。さらにつぶやいたユーザの中からさらにRTを使ってネットワーク構築.
CNMでコミュニティ分割.コミュニティによってキーワードのつぶやき比率は異なる.
さらにツイートからLDAを使ってトピック抽出
各コミュニティと2つのキーワードに関するツイートの傾向を分析.

                              • -

インフルエンサーが中心となるコミュニティの実態把握とのことだったが、最後ではあるキーワードに対するコミュニティごとの話題を抽出できる手法の提案となっていて、??となった.インフルエンサーどこ行ったの…



研究からおいていかれているので焦る