地平線まで行ってくる。

記録あるいは忘備録。時には検討事項。

自然言語処理 spaCyでelectraのファインチューニング

超大規模モデルが世間を圧倒させている。それをAPIで使うってのも面白そう。しかし、お手軽に使うとなると・・・。悔しいので、colabでできる自然言語処理のお勉強を進めることにする。今回は、固有表現抽出用にelectraのファインチューニングをお手軽にできないか、トライしてみた。

 

github.com

 

spaCy をベースとした日本語ライブラリ GINZAを使って、お手軽に挑戦。お手軽にできるかどうかの検証なので、教師データはこだわらず。なんだか、そもそもGINZAで採用しているモデルのおさらいにしか過ぎないけれども、素人ができるのかのお試し。

 

ベースモデルに追加で事前学習させたいんだけれども、どうやったらいいのだろう・・・。