文書を俯瞰　＃３ - 地平線まで行ってくる。

自然言語処理。文書を適当に俯瞰できるといいなと始めてみた。

前処理は見えてきたので、どうやって特徴量を出すのか。調べてみると、Doc2VecやTF-IDFあたりが割と枯れた技術のようなので、どちらかにする。情報が沢山あったほうが勉強しやすい。あまり古いとライブラリの依存関係とか更新されてないとか、そういう問題は注意だろう。

両方試して、結果も悪くなかったのでTF-IDFで進める。

from sklearn.feature_extraction.text import TfidfVectorizer

vectorizer=TfidfVectorizer(use_idf=True,norm='l2',smooth_idf=True)
tfidf = vectorizer.fit_transform(wakati_list_np)

これで終わり・・・。簡単。チューニングは最後。

作図へと進みます。

bwgift.hatenadiary.jp