地平線まで行ってくる。

記録あるいは忘備録。時には検討事項。

文書を俯瞰 #6

自然言語解析。科研費データから説明文を形態素解析を実施して、俯瞰データをプロット。ドットと密度をカーネル密度マップで描画。なんか、それらしくなった。

・ついでにそれぞれの年の重心位置もプロット。

科研費の番号は適当に間引いて表示。

インタラクティブHTML版も作ってクリックしたら詳細を確認できるように仕込む。この絵と重ねたいところだけど・・・。

f:id:bwgift:20210130104434p:plain

科研費マップ

 

ここまで作ってみた感想。

前処理とチューニング、次元圧縮で結果が大きく変わってくる。目的に応じて試行錯誤に手間取る。最終的には、まずまず目的を達するものを作成できた。

 

次元圧縮はこれって言うのが最後まで決まらかった。MDSも面白いけど計算コストが尋常じゃない。そこまでやる価値ある結果かと言えばそうでも無さげ。最終的にはUMAP、もしくは、MDSとの組み合わせあたりでしばらく様子見ることに。

 

計算時間と結果のバランスは大事。こんな分析だけで完璧な説明を求めるより、様々な角度からの分析を参照したいものだ。

 

ソースコードとか、どうしたいいのかなぁ。

 

bwgift.hatenadiary.jp