自然言語処理を学ぼう #2 BoW 実装編
目的
前回学んだ BoW を使って映画のあらすじから類似している映画を探してみる
形態素解析
Mecab
Neologd
- 新語・固有表現に強い「mecab-ipadic-NEologd」の効果を調べてみた : LINE Engineering Blog
MeCab と共に使う単語分かち書き辞書で、週 2 回以上更新更新され、新語・固有表現に強く、語彙数が多く、しかもオープンソース・ソフトウェアである
- 公式 Twitter
- 新語登録の情報をつぶやいてくれる
類似判定アルゴリズム
- Bag of Words
- TF-IDF
- cos 類似度 すべて gensim を使用
用意したデータ
映画のあらすじ情報を形態素解析で分割し、名詞のみを取り出し、固有名詞の人名は除いた
- 固有名詞が入ると順子のように名前だけで類似している映画としてヒットしてしまうので除外した