地平線まで行ってくる。

記録あるいは忘備録。時には検討事項。

文書を俯瞰 #3

自然言語処理。文書を適当に俯瞰できるといいなと始めてみた。

 

前処理は見えてきたので、どうやって特徴量を出すのか。調べてみると、Doc2VecやTF-IDFあたりが割と枯れた技術のようなので、どちらかにする。情報が沢山あったほうが勉強しやすい。あまり古いとライブラリの依存関係とか更新されてないとか、そういう問題は注意だろう。

 

両方試して、結果も悪くなかったのでTF-IDFで進める。

from sklearn.feature_extraction.text import TfidfVectorizer

vectorizer=TfidfVectorizer(use_idf=True,norm='l2',smooth_idf=True)
tfidf = vectorizer.fit_transform(wakati_list_np)

 これで終わり・・・。簡単。チューニングは最後。

 

 作図へと進みます。

 

bwgift.hatenadiary.jp