目的

前回学んだ BoW を使って映画のあらすじから類似している映画を探してみる

形態素解析

Mecab

Neologd

類似判定アルゴリズム

  • Bag of Words
  • TF-IDF
  • cos 類似度 すべて gensim を使用

用意したデータ

映画のあらすじ情報を形態素解析で分割し、名詞のみを取り出し、固有名詞の人名は除いた

  • 固有名詞が入ると順子のように名前だけで類似している映画としてヒットしてしまうので除外した

コード

find_similar_sentence.py