自然言語処理を調べている。人工知能搭載ボット・・・となるといきなり壁が高すぎる気がする。そこで、大量の文章をざっと眺める方法から取り掛かる。
特許で何やら、地図っぽい絵を描かせてどこが特許のポイントかを図示する方法があるらしい。パテント・ランドスケープという。
見ると、かんたんな統計から、語句解析を広く用いたもののようで、各社から有料で分析サービスがあるようだ。
新たな発想が生まれそうで楽しそう。
というわけで、こうした絵を書く真似事にチャレンジしようと調べ始めた。
が、いきなり躓く。特許庁のデータベースから一般人がまとまったデータをダウンロードできないのだ。(2021/1/5現在)。100件以下まで絞ればCSVでダウンロードって、そこまで絞れば読んだほうが早い。
https://www.j-platpat.inpit.go.jp/
そこで、科研費データベースを使ってみることを思いついた。
ここなら・・・。日本語と英語が混じっていたり、項目が埋まってなかったりとイマイチなところもあるけれど、お勉強としては十分だろう。
と、いうことで、元ネタにあたりをつけ、ゼロからお勉強を始めたのであった・・・。