自然言語処理。文書を適当に俯瞰できるといいなと始めてみた。
前処理は見えてきたので、どうやって特徴量を出すのか。調べてみると、Doc2VecやTF-IDFあたりが割と枯れた技術のようなので、どちらかにする。情報が沢山あったほうが勉強しやすい。あまり古いとライブラリの依存関係とか更新されてないとか、そういう問題は注意だろう。
両方試して、結果も悪くなかったのでTF-IDFで進める。
from sklearn.feature_extraction.text import TfidfVectorizer vectorizer=TfidfVectorizer(use_idf=True,norm='l2',smooth_idf=True) tfidf = vectorizer.fit_transform(wakati_list_np)
これで終わり・・・。簡単。チューニングは最後。
作図へと進みます。