2011-10-02から1日間の記事一覧

N-gramモデル作ってみた

ちょっと必要になったので。今までテキストデータを使った研究をしていた時には、一つのドキュメントにそれなりの文字数が使われていたので、形態素解析(chasen・MeCab)→助詞等を削る→各ドキュメントを単語のfeatureベクトルにという流れが常套手段だった…