JSAI2014行けなかったしいくつか読んでみる-Twitter-

足を痛めたので会社行きたくない

Twitterデータを利用して国政選挙の当選者を予測する。既存の手法で使われていたフォロワー数等の指標に加え、情報拡散の規模、多様度、忠誠度の３つ新たな指標を提案。

まず情報拡散支援者を定義。候補者のツイートをRetweetしやすいかつそれなりにフォロワー数が多いユーザ。
情報拡散規模・・・情報を受け取るユーザの期待値
多様度・・・情報拡散の際、情報支援者のなかで、相互関係にないユーザにどのくらい情報が伝わったかを加味する。支援者同士が同じコミュニティにいない方が多くの人に情報が伝わりやすいという仮定。
忠誠度・・・支援者がRTする全候補者のツイートのなかで、任意の候補者をRTする割合を考慮した指標。

分類モデルとしては、Random Forestを使用。
比較として、既存手法（候補者フォロワー数の推移）、本研究で収集したフォロワー数やツイート数などの基本指標のみを利用した予測、基本指標に比べ提案した３つの指標をプラスした予測で比較。
提案手法が既存手法に比べて約70%、さらに指標の追加で12%精度が上昇した（F値）

※この手の予測問題、研究としてどのくらいすすんでいる
か把握できてないけど、H社のAKBやY社の議員予測が精度も高く、インパクトもあったのでデータ持っているところが強いのかなぁという感じがした。RTには善意も悪意もあるところを見極められると精度が上がりそうだろうか。ただそれをやるには大変手間がかかるし手間ほどの精度向上が見込めなさそうな感じはする。

Twitter における集団的感性のモデリング

Twitterにおける集団的感性の時系列変化をモデリングする。基本の感情６つ{怒り,恐れ,嫌悪,幸せ,悲しみ,驚き}を感情語とし、ツイートをスコアリングする。
(1)内分比
G検索で感情語を検索し、上位１０００件の検索結果の概要にある名詞、動詞などをリストとして登録。ある単語tと特定の感情語リスト内の共起確率と、すべてのリスト内の共起確率の比を内分比S_i(t)とする。これをツイートないの単語を使って、ツイートを６次元の感情ベクトルに変換する。
(2)任意の感情語と単語の類似度をスコアとする。２つの単語をG検索し、出現の有無を素性としてコサイン類似度を求める。これをツイートないの単語を使って、ツイートを６次元の感情ベクトルに変換する。
(3)Weblioから類語を収集。各感情の類語ベクトルとツイートの単語ベクトルの積集合を要素とした６次元感情ベクトルを作成する。
収集期間内に集めたツイートを日付ごとにわけ、各日の集団感性とする。３つの手法で感情の相関係数をはかると、(3)が最も無相関に近かったので、この手法を利用する。６つの感情間の相関係数を見ると、悲しみと驚きの間は完全な無相関である事がわかった。嫌悪と怒りが最もせいの相関が強いなど、妥当な結果が得られている。
実際に感情の変遷を見てみると、クリスマスイブで恐れが低下し、幸せと悲しみが上昇している（！！）
悲しみの上昇は

クリスマスに対して悲観的な人々がいることを考えると妥当

とのこと。泣ける。

※感情の独立性を仮定しているので、無相関に近い手法で分析しているけど、現実的にはっきりしないので何とも言えない感じになっている。分析の結果としては妥当にみえるので問題なさそうだが・・・イベントと結びつけたコミュニティ単位での感情の遷移とかぜひ見てみたいですね。

データ研磨手法を用いた Twitter ユーザの関係構造変化の検出
育児に関するツイートの要約。ユーザの単語の類似構造の時系列変化視覚化して話題の変化を検知し、ツイートの単語類似度グラフからクラスタを抽出する事で単語クラスタ(要約)を出力。
グラフの研磨手法として、~~作成された類似度グラフにさらに~~任意の２頂点間の類似度があるしきい値を越えたときにリンクを加えて行き、グラフの密度の濃淡をはっきりさせた上で極大クリークを検出する。
このクリーク集合に出現した単語の遷移や有無を時系列で可視化する(Sankeyダイアグラム)ことで、構造変化を視覚化する。
安部首相の「育休３年」発言に対するツイートを収集。まず研磨手法を用いた手法（提案手法）と単純に類似度グラフからクラスタリングを行った手法を比較すると、提案手法はクラスタ数が減り、単語数も増えた。話題の差異をみると、
・安部首相の発言前には育児休暇の取得に関するツイートが多かったが、発言後には発言に対する意見表明が増えた
・男女間では、女性の方が大きく反応していた
・子供の有無でも社会保険や雇用の話しなど、それぞれで反応が違った

※クラスタリング部分で

一般グラフのクラスタリングについては,ニューマンクラスタリング,グラフ分割,極大クリーク列挙など,これまでも様々な手法が提案されてきたが,どの手法も問題点を抱えており,決定打になっていないというのが現状である.

とあったが、個人的には今回の手法も「単語間類似度がユーザ指定のしきい値を越えたらグラフを張る」といったユーザ側で設定が必要な値が存在しており、クラスタ抽出という意味では他手法と比較してそこまで有用性を感じなかった。クラスタリング前提の報告なので、その有効性を示すなら他の手法との比較がメインになるような気がした。関連文献で十分にその辺りが示されているのかもしれないけど。