地平線まで行ってくる。

記録あるいは忘備録。時には検討事項。

文書を俯瞰 #1

自然言語処理。文書が俯瞰できる仕組み作りに挑戦。

 

類似文書分類が、お手軽にできるのは、VEC2DOCかSklearnでTFIDFを利用。高度なプログラムは出来ないので、枯れたところを活用するのが幸せ。と、思って探していると、Kaggleのサイトにシンプルで綺麗なコードを発見。まずは、これを利用しよう。

www.kaggle.com

 

次元圧縮して2次元の図にするところとか、クラスタリングとかは、後で検討していく。まずは、基本的なところができるようになってから進めよう。

 

と、言うわけで、先ほどのコードを利用するために、日本語への対応から着手しなきゃ。

 

bwgift.hatenadiary.jp