自然言語解析。科研費データから説明文を形態素解析を実施して、俯瞰データをプロット。ドットと密度をカーネル密度マップで描画。なんか、それらしくなった。
・ついでにそれぞれの年の重心位置もプロット。
・科研費の番号は適当に間引いて表示。
・インタラクティブHTML版も作ってクリックしたら詳細を確認できるように仕込む。この絵と重ねたいところだけど・・・。
ここまで作ってみた感想。
前処理とチューニング、次元圧縮で結果が大きく変わってくる。目的に応じて試行錯誤に手間取る。最終的には、まずまず目的を達するものを作成できた。
次元圧縮はこれって言うのが最後まで決まらかった。MDSも面白いけど計算コストが尋常じゃない。そこまでやる価値ある結果かと言えばそうでも無さげ。最終的にはUMAP、もしくは、MDSとの組み合わせあたりでしばらく様子見ることに。
計算時間と結果のバランスは大事。こんな分析だけで完璧な説明を求めるより、様々な角度からの分析を参照したいものだ。
ソースコードとか、どうしたいいのかなぁ。