地平線まで行ってくる。

記録あるいは忘備録。時には検討事項。

文書を俯瞰 #4

自然言語処理。とりあえず、ベクトル化まで終わったので、作図。

 

ベクトルの可視化に着手。調べると、pca, t-sna, umapあと、少し経路が違うけれどもmdsも入れていいのかな。

cpp-learning.com

 

mdsは、きれいな特許マップを見せてくれるValuenex社が採用している。良さげだが、mdsは他の手法と比較して計算時間もかかるし、ここでは後回し。

https://japio.or.jp/00yearbook/files/2019book/19_2_09.pdf

https://static1.squarespace.com/static/5de81181ac2eb4212e1bb044/t/5e74ee492743d20f4440c4d0/1584721501769/20191028_vnx_solutions.pdf

 

#tfidfに解析結果が入っている。
import umap pos = umap.UMAP(n_neighbors=5,n_components=2).fit_transform(tfidf)

 

 でumapがかける。pcaなら、

from sklearn.decomposition import PCA

pca = PCA(n_components=2)

pos = pca.fit(tfidf)

 とこんな具合に先人の皆様の力で数行でかける。

 

パラメータの調整は後からじっくりやることなので、プロット部分をつけたらとりあえずは動かせる状態になりそう。