2014-05-19

JSAI2014行けなかったしいくつか読んでみる-Twitter-

論文

足を痛めたので会社行きたくない

Twitterデータを利用して国政選挙の当選者を予測する。既存の手法で使われていたフォロワー数等の指標に加え、情報拡散の規模、多様度、忠誠度の３つ新たな指標を提案。

まず情報拡散支援者を定義。候補者のツイートをRetweetしやすいかつそれなりにフォロワー数が多いユーザ。
情報拡散規模・・・情報を受け取るユーザの期待値
多様度・・・情報拡散の際、情報支援者のなかで、相互関係にないユーザにどのくらい情報が伝わったかを加味する。支援者同士が同じコミュニティにいない方が多くの人に情報が伝わりやすいという仮定。
忠誠度・・・支援者がRTする全候補者のツイートのなかで、任意の候補者をRTする割合を考慮した指標。

分類モデルとしては、Random Forestを使用。
比較として、既存手法（候補者フォロワー数の推移）、本研究で収集したフォロワー数やツイート数などの基本指標のみを利用した予測、基本指標に比べ提案した３つの指標をプラスした予測で比較。
提案手法が既存手法に比べて約70%、さらに指標の追加で12%精度が上昇した（F値）

※この手の予測問題、研究としてどのくらいすすんでいる
か把握できてないけど、H社のAKBやY社の議員予測が精度も高く、インパクトもあったのでデータ持っているところが強いのかなぁという感じがした。RTには善意も悪意もあるところを見極められると精度が上がりそうだろうか。ただそれをやるには大変手間がかかるし手間ほどの精度向上が見込めなさそうな感じはする。

Twitter における集団的感性のモデリング

Twitterにおける集団的感性の時系列変化をモデリングする。基本の感情６つ{怒り,恐れ,嫌悪,幸せ,悲しみ,驚き}を感情語とし、ツイートをスコアリングする。
(1)内分比
G検索で感情語を検索し、上位１０００件の検索結果の概要にある名詞、動詞などをリストとして登録。ある単語tと特定の感情語リスト内の共起確率と、すべてのリスト内の共起確率の比を内分比S_i(t)とする。これをツイートないの単語を使って、ツイートを６次元の感情ベクトルに変換する。
(2)任意の感情語と単語の類似度をスコアとする。２つの単語をG検索し、出現の有無を素性としてコサイン類似度を求める。これをツイートないの単語を使って、ツイートを６次元の感情ベクトルに変換する。
(3)Weblioから類語を収集。各感情の類語ベクトルとツイートの単語ベクトルの積集合を要素とした６次元感情ベクトルを作成する。
収集期間内に集めたツイートを日付ごとにわけ、各日の集団感性とする。３つの手法で感情の相関係数をはかると、(3)が最も無相関に近かったので、この手法を利用する。６つの感情間の相関係数を見ると、悲しみと驚きの間は完全な無相関である事がわかった。嫌悪と怒りが最もせいの相関が強いなど、妥当な結果が得られている。
実際に感情の変遷を見てみると、クリスマスイブで恐れが低下し、幸せと悲しみが上昇している（！！）
悲しみの上昇は

クリスマスに対して悲観的な人々がいることを考えると妥当

とのこと。泣ける。

※感情の独立性を仮定しているので、無相関に近い手法で分析しているけど、現実的にはっきりしないので何とも言えない感じになっている。分析の結果としては妥当にみえるので問題なさそうだが・・・イベントと結びつけたコミュニティ単位での感情の遷移とかぜひ見てみたいですね。

データ研磨手法を用いた Twitter ユーザの関係構造変化の検出
育児に関するツイートの要約。ユーザの単語の類似構造の時系列変化視覚化して話題の変化を検知し、ツイートの単語類似度グラフからクラスタを抽出する事で単語クラスタ(要約)を出力。
グラフの研磨手法として、~~作成された類似度グラフにさらに~~任意の２頂点間の類似度があるしきい値を越えたときにリンクを加えて行き、グラフの密度の濃淡をはっきりさせた上で極大クリークを検出する。
このクリーク集合に出現した単語の遷移や有無を時系列で可視化する(Sankeyダイアグラム)ことで、構造変化を視覚化する。
安部首相の「育休３年」発言に対するツイートを収集。まず研磨手法を用いた手法（提案手法）と単純に類似度グラフからクラスタリングを行った手法を比較すると、提案手法はクラスタ数が減り、単語数も増えた。話題の差異をみると、
・安部首相の発言前には育児休暇の取得に関するツイートが多かったが、発言後には発言に対する意見表明が増えた
・男女間では、女性の方が大きく反応していた
・子供の有無でも社会保険や雇用の話しなど、それぞれで反応が違った

※クラスタリング部分で

一般グラフのクラスタリングについては,ニューマンクラスタリング,グラフ分割,極大クリーク列挙など,これまでも様々な手法が提案されてきたが,どの手法も問題点を抱えており,決定打になっていないというのが現状である.

とあったが、個人的には今回の手法も「単語間類似度がユーザ指定のしきい値を越えたらグラフを張る」といったユーザ側で設定が必要な値が存在しており、クラスタ抽出という意味では他手法と比較してそこまで有用性を感じなかった。クラスタリング前提の報告なので、その有効性を示すなら他の手法との比較がメインになるような気がした。関連文献で十分にその辺りが示されているのかもしれないけど。

2014-05-17

JSAI2014行けなかったしいくつか読んでみる-複雑ネットワーク-

論文

昨日は読んでいたら３時回っていて、駅まで全力ダッシュするはめになったので平日は自重気味で行く。

有向ネットワークの構造が情報拡散に与える影響の分析

ネットワーク構造と情報拡散の関係を明らかにするため、ネットワーク関する13個の指標を用意。ある一つの指標だけを変化させ、そのネットワークで情報拡散シミュレーションを行う。指標の増減と情報が伝わったノード数（以下期待影響度）との相関を見る事で、情報拡散と関連の強い指標を検出する。
その結果、ノード内次数相関と期待影響度に極めて強い相関がある事がわかった。ノード内次数相関が高いということは、任意のノードの入次数と出次数がほとんど同じ本数だけあるという事になる。
そのほか、到達可能率（任意の2つのノードの組み合わせに対してリンクをたどって到達できる比率）や次数相関に関連した指標が相関が高く出ている。
これらの結果を考慮したネットワークを作成してみると、高い到達可能率・ノード内次数相関によって最大の期待影響度を得る事が出来た。

※出次数と入次数の高いノード(hub)が多く存在すると期待影響度が高いネットワークかと言われると、hub自体は多くなくてもノード内次数相関を高く保ちつつ期待影響度の高いネットワークは出来る気がする。そういう意味ではhubの数と影響度の関係なんかも気になる。

単語のコミュニティ性に基づいた専門用語の抽出

例えば学会における論文から専門用語の抽出を行う際、論文の題目と概要しかわからないという制約が与えられている事は多く、その場合既存の手法ではあまり良い結果が得られない。そこで、専門用語にコミュニティ性という新しい概念を導入する。

専門用語は少数の専門家コミュニティで頻繁に使われ、一般的な用語は多数コミュニティで広く使われていると仮定し、このようなコミュニティ性を利用して単語の専門性を定量化するICF(Inverse Community Frequency)と、それを用いた単語スコア計算方を提案。

単語-論文-著者からなる3部グラフを構築。共著ネットワークをコミュニティ分割し、全コミュニティ数に対する任意の単語が出現したコミュニティ数 $r(w_i)$ を求める。
この値の逆数の対数に定数を乗じたものをICFと定義
$ICF(w_i)=(log(\frac{1}{r(w_i)}))^\alpha$
単語スコアは以下の式で算出
$TF-ICF(w_i)=TF(w_i)*ICF(w_i)$

実際にJSAIのデータを利用してその他の手法と比較してみると、提案手法は特定の分野で使われるような専門語に高いスコアがつく傾向が見られた。

※TF-IDFに変わる単語のスコア付与に関しては、去年のCIKMあたりで単語間グラフを作成するようなアプローチであったような記憶がある。アイデアは個人的に面白いと思ったけどちょっと評価が寂しいのがもったいない感じがした。

分散表現を用いたコミュニティにおける単語使用傾向の分析

コミュニティにおけるHomophily(類友)を調査。
TwitterのmentionNWをコミュニティ分割。それぞれのコミュニティ内のプロファイルと投稿で使われる単語を利用する。
コミュニティ間の類似度を表す指標として、ネットワークベースのものと単語ベースのもを用意。
ネットワークベースの類似度は２つのコミュニティ間のリンク数、単語ベースの類似度は２つのコミュニティ間で利用される単語群のがどれだけ似ているかで定義される。

まず、プロファイルからコミュニティをタグ付けすると、同じor近隣高校、同じor近隣大学、趣味の３つに分ける事が出来る。
コミュニティごとに使われ方が違う単語についてみると、[ミート]という単語は、オンゲーコミュニティでは肉、ディズニーコミュニティでは会う事を意味していた。
最後にネットワーク的な類似度と言葉遣い的な類似度の相関を見ると、高校コミュニティではネットワークとしては遠いが、言葉遣いとしては近い、大学では両方近い、趣味ではネットワークは様々だが言葉遣いは遠いという結果が得られた。
以上の事から、Homophilyは属性の近さによって似る場合と趣味があるので友達に成る場合の2種類がある事が示唆される。

2014-05-16

JSAI2014行けなかったしいくつか読んでみる-その１-

論文

検索エンジン

ソーシャルメディアの情報統合によるエキスパート検索エンジンに関する研究

目的の知識を有したエキスパートを検索する「エキスパート検索問題」に対し、ウェブ上のデータソースを用いた検索基板Social Expert Search Engineを提案。
Web上のデータソースから情報を取得し、その情報を統一されたメタ情報に変換してエキスパート知識データベースに格納。この情報利用してエキスパートの専門性をスコアリングして、ユーザの要求に合うエキスパートを提供する。
このシステムを応用してポートフォリオ生成エンジンを作成。データソースとしてGithubとGoogle Playを利用した。
被験者9人の評価により、データソースの不足によるスキルの不一致や提供UIに不満が出た。

※素朴にLinkedInじゃダメなのかなぁと思う部分もあった。それこそLinkedInに成ってしまうが、人間関係をグラフとして持っておくとデータソースの不足を補完できるようになりそう。

プライバシー保護データマイニング

医療データ利用におけるプライバシ保護の課題とその解決策の提案

医療においてプライバシ保護が必要になる事例を紹介。データとして利用する価値を残しつつ個人が特定されないよう、現状定められたガイドライン等に関して紹介されている。
医療データの応用先として、医療機関をネットワーク化し、医療情報を共有する取り組みがある。しかし、情報閲覧範囲の拡大により人為的ミスのリスクが高くなるので情報漏洩のリスクが高くなる問題がある。
これらの課題をまとめると「複数医療機関に分散するデータを患者プライバシを保護して共有するシステム設計,プライバシ漏洩リスク評価と低減,適切なアクセスコントロール」となる。
これらの課題を解決するための情報セキュリティ・匿名化技術の有用な利用法について提案する。

匿名化の実社会での利用に向けての技術課題

パーソナルデータに関する検討会として行われた技術検討ワーキングの報告書にそって、匿名化を実際に使うための問題点について述べている。
1.匿名化技術の一つであるk-匿名化を用いた完全な匿名化は不可能である
任意のデータ業者Aがこの技術を用いて匿名化を行っても、その他の業者Bのデータをつきあわせる事で個人が特定できる事がある。一方、すべての業者がすべての情報を匿名化した場合にはデータとしての精度が悪化して利用できなくなる。

2.個別データベースと個別応用による匿名化の可能性
a.疑似ID有無(デモグラ情報など)
b.外部可知／不可知(ID以外の情報がDBに保存されている事が第三者に知られうるかどうか)
それぞれの場合分けによって匿名化の可否も変わる
・疑似ID無+外部不可知
データが公開されても本人特定は極めて困難
・疑似ID有+外部不可知
疑似ID自体をk-匿名化する事が有効
・外部可知+疑似ID無
データと観察日時などから本人特定が可能。データ自体をk-匿名化しても、長期にわたってデータを収集して行くとそれだけで個別性が高まってしまう。
・外部可知+疑似ID有
二つのデータを紐付けしたデータを匿名化するため、データの精度を大幅に落とす必要がありデータの価値は下がる。

3.センシティブ情報
行動履歴、滞在情報、薬剤購入、宗教といった個人によって不都合かどうかが異なる情報。一律な扱いが難しい。

4.k-匿名化の濡れ衣
k-匿名化を用いる事で、ユーザが何らかの属性によってセグメントになったとき、その中のあるユーザが特徴的な行動を行っていると他のユーザとの識別が出来なくなっている状態なので、そのユーザも同じ行動をしていたと見なされる恐れがある。

5.自己情報コントロール
個人情報の利用のされ方について、開示要求に応える事。消去要求があった場合には速やかに削除する事を実現する

※こういった話、一番知らなければならない企業のデータ活用者にあまり届いてないのが現状な感じする。個人のデータはあくまで個人の裁量で扱われるべきである事を企業に浸透させるのはなかなか大変そう。

2014-05-12

JSAI2014行けないし、せめて個人的に面白そうなタイトルリストでも作るか

タイトルだけで読んでみたいものをまとめておく。少しずつ読んで行く。

検索エンジン

ソーシャルメディアの情報統合によるエキスパート検索エンジンに関する研究

マイクロブログ

Twitter における候補者の情報拡散に着目した国政選挙当選者予測
 マイクロブログへの投稿に基づく政治家の立場推定
 Twitter における集団的感性のモデリング
 データ研磨手法を用いた Twitter ユーザの関係構造変化の検出
 SNS の共有行動を用いたユーザーの興味のモデル化に対する考察 -2013 年参議院議員選挙を題材として-

プライバシー保護データマイニング

医療データ利用におけるプライバシ保護の課題とその解決策の提案
 匿名化の実社会での利用に向けての技術課題

複雑ネットワーク

有向ネットワークの構造が情報拡散に与える影響の分析
 単語のコミュニティ性に基づいた専門用語の抽出
 分散表現を用いたコミュニティにおける単語使用傾向の分析

位置情報

少数の正解ラベルを用いた移動履歴の移動手段判定

2014-04-07

読んだ：Modeling and Predicting the Growth and Death of Membership-based Websites（WWW2014）

Modeling and Predicting the Growth and Death of Membership-based Websites

FacebookやHuffington Postのようなインターネットのスタートアップが成功する要因を突き止めるために、成功、失敗の成功メカニズムを解明する。22のメンバーシップベースのwebサイトのデイリーのユーザ数(DAU)を6年間にわたって収集。
サイトの成長・衰退パラメータと、成長法(口コミ・メディア)についてのパラメータを用意してモデル作成。

※定義(tは任意の時刻)
$A(t)$ ...アクティブユーザ(DAU)
$I(t)$ ...ノンアクティブユーザ
$U(t)$ ...メンバーでないユーザ
$C$ ...WebSiteのキャパシティ $(A+I+U)$
$\alpha$ ...アクティブメンバーの影響力パラメータ。ノンアクティブユーザをアクティブへ遷移させる率。
$\beta$ ...衰退率。アクティブユーザがアクティブでなくなる率。
$\gamma$ ...口コミによる新規ユーザの加入パラメータ。アクティブユーザの行動により新規ユーザがサービスにjoinする。
$\lambda$ ...メディアやマーケティングによる新規ユーザ加入パラメータ。加入済みのユーザ以外の情報によりサービスにjoinする。

これらの動作をふまえたアクティブユーザとノンアクティブユーザの増加数を以下のように定義
$\frac{dA(t)}{dt}=-\frac{1}{C}A^2(t)\gamma+\frac{1}{C}I(t)A(t)(\alpha-\gamma)+C\lambda-A(t)(\beta+\lambda-\gamma)-I(t)\lambda$
$\frac{dI(t)}{dt}=A(t)\beta-\frac{1}{C}I(t)A(t)\alpha$

４つのパラメータが持つ意味
$\alpha > \beta$ ...DAUが長期にわたって継続して存在する状態（成功）
$\beta > \alpha$ ...DAUが時間の経過とともに衰退（失敗）
$\lambda \gg \gamma$ ...初期の段階から順当にユーザ数を増やし、ある程度の段階で落ち着く
$\gamma \gg \lambda$ ...最初は全くユーザ数が増えないが、時間の経過とともに急激に増加する

上記の式とパラメータを、各WebSiteのDAUに対して調整していく。パラメータの推定にはレーベンバーグ・マーカート法を利用。学習に利用するデータは最初の3-6ヶ月の間。

※結果
$\alpha$ と $\beta$ の値から各サービスを成功と失敗に分類。ここで言う成功とは「持続性がある」こと。
代表的なものだとlinkdinやfacebookなどがここに属する。失敗だと、memolane,12seconds(知らない)などがここに当てはまる。
続いてこれらのSiteの成長についてみてみると、多くのサイトがユーザの口コミで成長していることがわかる。mediaの影響を大きく受けている中にはebayなどがあった。
上記の結果から、成功パターンと失敗パターンを以下のようにパラメータを調整して長い期間で予測する。

成功： $\gamma \gg \lambda, \frac{\alpha}{\beta} > 1$
持続型かつ口コミによって成長する
f:id:A_Koide0519:20140407014651p:plain

失敗1： $\lambda \gg \gamma, \frac{\alpha}{\beta} < 1$
持続性がなく、主にメディアによって成長する
失敗2： $\gamma \gg \lambda, \frac{\alpha}{\beta} < 1$
持続性がなく、主に口コミによって成長する
f:id:A_Koide0519:20140407014703p:plain

酷いイメージ図だ・・・

すると、サイトにもよるが多くの場合数年レベルでのDAUの予測がそこそこうまく出来ている。データの中には大きなイベント（アメリカ大統領選）が含まれているものもあり、さすがにそれを予測するのは難しい。

貢献としては、DAUという情報のみを利用して、その予測がうまくできるモデルを提案している点。
実際に結果を見てみると、うまく予測できているとしている部分もなかなかに外している所もある．．．
サービスレベルでここまでやった論文は見たことないので、その部分も貢献も大きそう

2014-03-24

読んだ：Adscape:Hervesting and Analyzing Online Display Ads（WWW2014）

Adscape:Hervesting and Analyzing Online Display Ads
ディスプレイアドに関する多角的な分析。特にターゲティング広告に関する分析になっている。
Adscape:ゲーム内に広告を配信する技術を開発している会社。大正義G社によって買収。
今回の論文ではデータの収集部分にもかなり力が入っており、クリエイティブ（広告の制作物）やランディングページ（広告のクリック先のページ）に関しても収集する。
分析の結果、ターゲティングは広く利用されているが、配信される広告がユーザのプロファイルに依存しない多くの例があることがわかった。
さらに、ターゲティングが使われる際に、特定のタイプのアドはユーザのプロファイルの詳細や、ユーザの訪問パターンと一致することがわかった。

※adscapeの考え方
ユーザ $u(t)$ がWebページ $w(t)$ に時刻tでアクセスする。 $w(t)$ の配信者はアド集合 $a(t)$ を $u(t)$ にみせる。さらに配分関数 $f_w(t):u(t) \rightarrow a(t)$ を定義。この関数は、以下のものに依存。
1)ユーザのデモグラ
2)サイトwの内容
3)時刻t、ユーザの過去の行動やwの過去のコンテンツ
4)アド集合 $a()$
5)インセンティブや市場の状況
最終的な目標は、これらをクローリングして追跡することでユーザターゲティングの様相を理解すること。

データの収集の方法がかなりしっかり書かれていた。（カット）

●データの収集
314Webサイト(主要Webサイト)と340カテゴリ(Google独自の技術)を準備。
２日間でおよそ80万のimpsと17.5万のアドを収集。3700の広告主と106のアドサーバから成る。

●分析
・Webページとプロファイルの重要性
ユニークアドの90%は、世の中の2%のWebページで表示されている。(GとかYとかBとか)
・ページに対する広告数
1pageに対して大体2-4くらい広告がつく。そしてその広告はたいてい異なった広告主で構成される。
・各ページのターゲティング比率
50%以上のWebサイトが80%の広告の在庫をプロファイルターゲティングに使用している。その中でも性別と年齢を属性として利用しているサイトが多い。
・カテゴリに対するimps数
金融関係の広告が一番多い。ショッピング、コンピュータ、ビジネスと続いて行く。
・プロファイルとアドのカテゴリの関係
impsを使ってプロファイルとカテゴリの相関関係をヒートマップ化
1)ゲームや健康、ショッピングはプロファイルとアドのカテゴリが一致する傾向がつよい。
2)いくつかのプロファイルは関連性のあるカテゴリからターゲティングされていて、美と健康のプロファイルはショッピングやトラベルと、ペットは家と関係が強い。
3)アート、エンターテイメント、ビジネス、コンピュータ、ショッピングのカテゴリの広告はターゲティングされる傾向が小さい。どのプロファイルにも平均的に広告が配信されている。
注：2と3の結果に若干の矛盾を感じる...ショッピングはターゲティングされていないと言っているのに...
4)興味深いことに、プロファイルのついていないimpsはレストランカテゴリの広告がよくあたっている

いくつか面白いものもあったけど、衝撃的な発見！という感じではないっぽい。こういうのを先頭切ってやるって言うのが大事な感じがする。

2014-03-23

ざっと読んだ：Partner Tiering in Display Advertising（WSDM2014）

ざっと見たときにグラフ系+広告の話と思って読んでみたけど、グラフという程ではなかった感じ。これは広告に詳しい人の解説がほしいなぁ

ディスプレイ広告に関する論文。
広告配信システムは、契約を満たすように広告主の代理としてページに広告を配信し、配置の質を最大化することを試みている。
一般に、このようなものをモデル化する際には、オンライン上の配置問題として考えられる。
しかし、広告主と発行者の間の契約の常用な部分のほとんどが、これまでの数式では考慮されていない。それは、発行者が決まって媒介者(配信システム)として表され、広告主は媒介者から在庫を購入するからである。
発行者は質、重要性ともに様々であり、かつ広告の在庫は限られているので、広告配信システムとしては高品質の発行者を選んで行きたい。
そこで、この問題をそれぞれのimpressionがその重要性から導かれたレベルを持った、オンライン上の配置問題として定式化する。

広告配信の話
一般的には、プレミアムパートナーの在庫を抑えたとしても、広告主
の需要と比べてパートナーからの在庫が余る。

f:id:A_Koide0519:20140323010329p:plain

プラットフォームの目的
1)広告主の需要を満たす
2)プレミアムパートナーに対する高水準を保証する
3)在庫は、広告主毎に価値が異なるので、配分されたimpressionの価値を最大化する

具体的な在庫と広告のマッチングの例
x)プレミアムパートナーの広告を当てる。一方で広告主に対してプラットフォーム生成した総クリック数が最適でなくなる
y)CTRの高い広告を当てる。総クリック数は最大化されるが、CTRの低いプレミアムパートナーを捨てることになる
z)どちらも平等に当てる。

●定義
広告主: $A_1,...A_N$
広告主 $A_i$ は $N(i)$ 回impressionしてほしい
それに対してm人のパートナー $P_1,...,P_m$ が媒介者(配信システム)となる
パートナーにはプライオリティに基づいて1-Lまでのレベルがつく $L(P_i)$
オンライン上の設定ではj回めのimpressionを $L_j$ とする。
そしてimpressionはパートナーのレベルを引き継ぎそれを $L(j)$ とする。
$A_i$ と $L_j$ 間のCTRを $w(i,j) \in {0,1}$ とする。

●アルゴリズム
※DUAL-SCALEアルゴリズム
$weight(i,l)$ ...広告主 $A_i$ に割り当てられたレベルlのimpressionの総重み
$\gamma(i,l)=\frac{\sum_{j\leq l}weight(i,j)+\beta * \sum_{j>l}weight(i,j)}{N(i)}$
$L_j(j=l)$ が与えられたときにスコアが最大に成るのは以下の式を満たす広告主i
$argmax_{i}(w(i,j)-\gamma(i,l))$
$\beta$ は高水準なimpressionによって導かれるコブ(?)のようなもの。
$\beta=0$ の時、レベルl+1以上のweightを完全に無視する。
$\beta=1$ の時、各レベルを計算する一方ですべてのimpressionが広告社に平等に割当られる
この２つの特殊ケースに対する理論保証のはなしがつらつら。
※EW-SCALINGアルゴリズム
スケールファクター： $sc_1 \leq sc_2 \leq ...sc_L$
$\gamma(i)$ ...広告主A_iに割り当てられる、impressionの平均重み
$L_j(j=l)$ が与えられたときにスコアが最大に成るのは以下の式を満たす広告主i
$argmax_{i}(sc_l*w(i,j)-\gamma(i))$

●実験
３つの匿名の発行者を準備。各々の発行者に関して完全なimpressionのセットを収集。
各々のimpsに対して興味を持った広告主、CTR、impsのタイプがついている。また、
広告主に対して配信契約もついている。
impsのレベルに関しては1-10の間で３つの付け方を準備
1)impsのタイプ
2)80%の確率でimpsのタイプ、残りはランダム
3)ランダム
今回は1を採用
データセットも３タイプあって、impsの重複具合が異なる。
a)広告主が狙うimpsが1-わずかなレベルに分布
b)中間くらい
c)広告主が狙うimpsのレベルが各レベルでほぼ同じくらい
※評価
Fill-Rate...広告主に割り当てられたimpsの比率
Under-Delivery...全広告主の未処理のデマンド数
Over-Delivery...前広告主のあふれてしまったimps数
Total Weight of Matching...グラフの重み->広告主の総クリック数に成るはず

パラメータやデータセットを色々かえて実験しているが、評価指標やデータセット
ごとにそれぞれの提案手法が良かったりベースラインの方が良かったりしている。

結論もないので結局どれが良かったのかがよくわからない...!