論文が読めない雑記
ここのところ読んでいる論文、どれも読めなくてつらい.
読めない理由としては、とにかく数式が全く終えてない.
一番読んでいるのは
The Learning Behind Gmail Priority Inbox
だけど、雰囲気はわかっても実装できるだけの理解力がない.
参考にしているサイト
http://d.hatena.ne.jp/kisa12012/20110212/1297518746:Gmail優先トレイ論文メモ
http://d.hatena.ne.jp/repose/20110108/1294415170:The Learning Behind Gmail Priority Inbox読んだメモ
http://d.hatena.ne.jp/echizen_tm/20110120/1295547335:機械学習超入門II ~Gmailの優先トレイでも使っているPA法を30分で習得しよう!~
・まず最初の文中に出てくると2.3節に出てくる
が違う意味な気がするんだけど…最初はユーザがメールをみる機会(?)を表していて、次はメールの重要度になっているような気がするんだが…メールごとにこのスコアが与えられた時にそれがT秒後にアクションを起こされる確率を求めようってことだろうか
・転移学習は全く知識がなかったんだが、グローバルの特徴量をユーザごとの特徴量を算出するのにも使うみたいな感じなのだろうか…
・オンライン学習.ユーザごとのWeightを新しいメールが来るたびに逐次更新していくでいいのかな
・重みの更新式はPA-2 regression variantというもの.基本的にうまくいっている物はいじらないでうまくいかなかったものだけ調整していくみたいな感じだろうか。
なんにしても、メールが届いてから受け手がアクション(返信とか)をする時間が早ければ早いほどそのメールは重要に違いないという仮定に基づいて、メール内に存在するさまざまな特徴量からユーザがT秒後にアクションを起こす確率を求めようという感じによめた。
読み始めて詰んだのが
http://www.ryanrossi.com/papers/wsdm13-dbmm.pdf:Modeling Dynamic Behavior in Large Evolving Graphs
成長ネットワーク上で各ノードはそれぞれの役割(ハブノードとか)を持っていて,それが時間と共に変化するので、それを予測しようみたいな感じだと思う.それぞれのノードは各役割に遷移する確率を持っていて、それに基づいてリンクが張られていく.役割はいくつかの特徴量を使って求める.
自分が読めていないのもあるけど、特徴量が何であるか、役割が何であるかが詳しくは書かれていないので、(行列分解で云々のところですでに詰んでる)元論文を読んだ方がいいのかな.
機械学習の論文は基礎知識が足りなくて、気持ちしかわからないってのがしばらくは続いていきそうだなぁ…周りのできる人にどんどん聞いていこう