文書を俯瞰　＃１ - 地平線まで行ってくる。

自然言語処理。文書が俯瞰できる仕組み作りに挑戦。

類似文書分類が、お手軽にできるのは、VEC2DOCかSklearnでTFIDFを利用。高度なプログラムは出来ないので、枯れたところを活用するのが幸せ。と、思って探していると、Kaggleのサイトにシンプルで綺麗なコードを発見。まずは、これを利用しよう。

次元圧縮して２次元の図にするところとか、クラスタリングとかは、後で検討していく。まずは、基本的なところができるようになってから進めよう。

と、言うわけで、先ほどのコードを利用するために、日本語への対応から着手しなきゃ。