JSAI2014行けなかったしいくつか読んでみる-その１-

検索エンジン

目的の知識を有したエキスパートを検索する「エキスパート検索問題」に対し、ウェブ上のデータソースを用いた検索基板Social Expert Search Engineを提案。
Web上のデータソースから情報を取得し、その情報を統一されたメタ情報に変換してエキスパート知識データベースに格納。この情報利用してエキスパートの専門性をスコアリングして、ユーザの要求に合うエキスパートを提供する。
このシステムを応用してポートフォリオ生成エンジンを作成。データソースとしてGithubとGoogle Playを利用した。
被験者9人の評価により、データソースの不足によるスキルの不一致や提供UIに不満が出た。

※素朴にLinkedInじゃダメなのかなぁと思う部分もあった。それこそLinkedInに成ってしまうが、人間関係をグラフとして持っておくとデータソースの不足を補完できるようになりそう。

プライバシー保護データマイニング

医療データ利用におけるプライバシ保護の課題とその解決策の提案

医療においてプライバシ保護が必要になる事例を紹介。データとして利用する価値を残しつつ個人が特定されないよう、現状定められたガイドライン等に関して紹介されている。
医療データの応用先として、医療機関をネットワーク化し、医療情報を共有する取り組みがある。しかし、情報閲覧範囲の拡大により人為的ミスのリスクが高くなるので情報漏洩のリスクが高くなる問題がある。
これらの課題をまとめると「複数医療機関に分散するデータを患者プライバシを保護して共有するシステム設計,プライバシ漏洩リスク評価と低減,適切なアクセスコントロール」となる。
これらの課題を解決するための情報セキュリティ・匿名化技術の有用な利用法について提案する。

匿名化の実社会での利用に向けての技術課題

パーソナルデータに関する検討会として行われた技術検討ワーキングの報告書にそって、匿名化を実際に使うための問題点について述べている。
1.匿名化技術の一つであるk-匿名化を用いた完全な匿名化は不可能である
任意のデータ業者Aがこの技術を用いて匿名化を行っても、その他の業者Bのデータをつきあわせる事で個人が特定できる事がある。一方、すべての業者がすべての情報を匿名化した場合にはデータとしての精度が悪化して利用できなくなる。

2.個別データベースと個別応用による匿名化の可能性
a.疑似ID有無(デモグラ情報など)
b.外部可知／不可知(ID以外の情報がDBに保存されている事が第三者に知られうるかどうか)
それぞれの場合分けによって匿名化の可否も変わる
・疑似ID無+外部不可知
データが公開されても本人特定は極めて困難
・疑似ID有+外部不可知
疑似ID自体をk-匿名化する事が有効
・外部可知+疑似ID無
データと観察日時などから本人特定が可能。データ自体をk-匿名化しても、長期にわたってデータを収集して行くとそれだけで個別性が高まってしまう。
・外部可知+疑似ID有
二つのデータを紐付けしたデータを匿名化するため、データの精度を大幅に落とす必要がありデータの価値は下がる。

3.センシティブ情報
行動履歴、滞在情報、薬剤購入、宗教といった個人によって不都合かどうかが異なる情報。一律な扱いが難しい。

4.k-匿名化の濡れ衣
k-匿名化を用いる事で、ユーザが何らかの属性によってセグメントになったとき、その中のあるユーザが特徴的な行動を行っていると他のユーザとの識別が出来なくなっている状態なので、そのユーザも同じ行動をしていたと見なされる恐れがある。

5.自己情報コントロール
個人情報の利用のされ方について、開示要求に応える事。消去要求があった場合には速やかに削除する事を実現する

※こういった話、一番知らなければならない企業のデータ活用者にあまり届いてないのが現状な感じする。個人のデータはあくまで個人の裁量で扱われるべきである事を企業に浸透させるのはなかなか大変そう。