読んだ:Cross-Device Search(CIKM2014)

GWは風邪を引いてほぼ寝ていました。●畜なのか平日は風邪をひきません。

http://research.microsoft.com/en-us/um/people/ryenw/papers/montanezcikm2014.pdf

デバイスを跨いだ検索の理解(トピックなど)と、デバイス遷移予測モデルの構築。
デバイスの遷移が予測できれば、例えば、PCからスマホにデバイスを変更した検索した人に対して、スマホ向けの短い記事を優先的に提示するといったデバイスに特化した試作を打つ事が出来る。

・デバイスとして、PC,tablet,smart phone,game consoleの4つを選択。

-データセットと基本的な特徴

コマース系検索エンジンから数ヶ月分の検索クエリを取得。

・クエリベースの統計量

クエリ数がおよそ2億で、複数デバイスを利用しているユーザーが検索したクエリ数はおよそ16%だった。また、PCのクエリが全体の9割以上になっている。

・ユーザーとdeviceに関する統計量

デバイスのうち、2つ以上のデバイスを利用しているユーザーが5%(!?)、複数デバイスの組み合わせとしては、PC-Tabletの組み合わせが3%で最も多い。

・クエリとトピックの分布

独自のクラス分類方法で50程のカテゴリにクエリを分類。さらにカテゴリは高確率に出現した15トピック(TV&movie,TVなど)にグループ分けした。
また、デバイス間で特徴的に出現するクエリを調査するために、P(topic|device)とP(topic)のPMI(自己相互情報量)を利用する。
各トピックに適用した結果、GameConsoleにおいてGAMINGトピックのPMI値が高く(当たり前)、smartphoneにおいて、foodトピックのPMI値も高かった。
次に、時間の遷移を加味したPMIの遷移を見て行く。デバイスごとにPMIの変化が大きく出たtopicを見ると、game consoleが全デバイスの中で最も滑らかなPMIの変化をしている。topic目線で見るとadultとfoodが非常に特徴的で、adultgは労働時間帯はPMI値がnagative rateであるが、22-4時位にかけてhigh positive rateとなる。一方で、foodは昼時と夕方にspikeが出来る特徴がある。

-デバイス間遷移

Markov Graphの様な自己遷移も含めたデバイスの遷移グラフをかいてみる。なお、遷移として認めるのは3時間以内とする。
これだと自己遷移が99%以上になるので、他デバイスへの遷移だけを示したグラフをかいてみる。
これを見ると、各デバイスからの大多数の遷移がPCに向かっている事がわかる。また、PC-smartphoneとPC-Tabletには密接な関係(高密度な相互リンク)がある事がわかる。

・次のdeviceへの遷移と遷移前に検索したトピックの関係
基本的にはPCへの遷移に引っ張られる(全体で見たときの遷移率はPC-63.9%,SmartPhone-11.2%,Tablet-24.6%,Console-0.6%)が、一部のトピックではあるデバイスへの遷移確率が全体と比較して非常に高いものが見られる。例えば、Events-Nightlifeに関するクエリを検索した後に遷移するデバイスがGameConsoleである確率は、全体のものと比較して870%も増加する。

・過去の時刻と次のデバイスへの関係

PCは事前の検索時刻が午前7時から午後5時の時に遷移しやすい。SmartPhoneやTabletは早朝や深夜、GameConsoleは0-4に検索された後に遷移しやすかった。

・デバイス遷移時間差

クエリ間の時間差を、すべてのデバイス間遷移を考慮したサイト、クロスデバイスで遷移した際で比較してみる(時間差と比率のlog-log plot)。すると、クロスデバイス遷移時間差は、なだらかなベキ則分布となる。

-デバイス遷移予測

これまで見てきた特徴が遷移予測の精度にどのくらい影響するかを調べる。
予測タスクとして3つ用意。
task1.次に利用するデバイスを予測する
task2.2つのクエリ間でデバイスの遷移が起こったのかを予測する
task3.デバイスが変化したときに、次のデバイスを予測する

データセットは予測タスクに合わせて3つ用意
1.Main:すべての遷移情報を含んだもの
2.Balanced:同一デバイスへの遷移とクロスデバイス遷移を同量含んだもの
3.Cross-Device Only:別デバイスへの遷移だけを含んだもの

特徴量は177個用意(予測結果で必要なものだけ述べる)。
学習モデルとして、L1正則化ロジスティック回帰とGBDTを利用。
Baselineとしては、
1)データセット内で最瀕のものを選択
2)ランダム
3)学習中に出現した比率にそってランダム
を用意。

どの3つのタスクにおいてもベースラインと比較して25%以上の精度が向上した。
task2,task3ではそれぞれどの特徴量が効いているかを調べており、task2ではユーザー独自の情報(過去の遷移情報(遷移数とクロスでバイス遷移数)、過去のデバイス使用率、デバイス間遷移確率、遷移時間差)とデバイス遷移時間差が非常によく効いており、task3ではユーザー独自の情報だけですべての特徴量を突っ込んだものとほぼ同様の精度が出せる事がわかった。