自然言語処理。文書が俯瞰できる仕組み作りに挑戦。
類似文書分類が、お手軽にできるのは、VEC2DOCかSklearnでTFIDFを利用。高度なプログラムは出来ないので、枯れたところを活用するのが幸せ。と、思って探していると、Kaggleのサイトにシンプルで綺麗なコードを発見。まずは、これを利用しよう。
次元圧縮して2次元の図にするところとか、クラスタリングとかは、後で検討していく。まずは、基本的なところができるようになってから進めよう。
と、言うわけで、先ほどのコードを利用するために、日本語への対応から着手しなきゃ。