地平線まで行ってくる。

記録あるいは忘備録。時には検討事項。

参考のためにbert-base-japanese-v3で固有表現抽出をColabで試してみる。

ModernBERTによる固有表現抽出を試してみて気になったのでBERT-base-japanese-v3でも試してみます。同じように10epochs学習させてみました。Tokenizer部分などなど必要な部分を変更しますが、学習データやハイパラはそのままです。ざっくりです。

 

学習は無事に進みました。まだまだ賢くなりそうです。

Epoch    Training Loss    Validation Loss    Precision    Recall    F1    Accuracy
1    No log    0.355915    0.342502    0.304897    0.322608    0.882611
2    0.479300    0.282448    0.458640    0.442338    0.450342    0.905882
3    0.479300    0.234552    0.553018    0.535545    0.544141    0.925851
4    0.209600    0.214649    0.597371    0.574250    0.585582    0.935810
5    0.134700    0.217745    0.608903    0.605055    0.606973    0.936791
6    0.134700    0.206061    0.620994    0.612164    0.616547    0.942208
7    0.099100    0.208137    0.632750    0.628752    0.630745    0.944221
8    0.099100    0.210967    0.656200    0.643760    0.649920    0.945356
9    0.082400    0.215311    0.655529    0.650869    0.653191    0.946130
10    0.069000    0.216643    0.654243    0.651659    0.652948    0.945975

 

同じ10epochsで単純に比較していいというものではありませんが、感触をつかむためなので良しとします。modernBERTでは、一気に学習が進んだ印象があります。bert-base-japanese-v3とmodernBERTをしっかり学習させて比較したいものです。

 

Colabのノート

gist.github.com