前回考えた処理の流れ

  1. 学習データの文章を用意する
  2. mecab(neologd使用)でわかち書き処理
  3. Word2Vecまで名詞のみにしていたが、Doc2Vecは文章に対応しているので文章全部を利用する
  4. GensimのDoc2Vecにはmost_similarメソッドが用意されているので、それで類似した文章を見つける

参考

実行コード

find a similar movie by doc2vec