地平線まで行ってくる。

記録あるいは忘備録。時には検討事項。

最後に日本語ModernBERTでColabでNERしてhuggingfaceにuploadしてみる。

日本語ModernBERTで10epochsくらい学習させて止まってたので、50epochsまで学習させたモデルを作成しました。Huggingfaceにモデルをアップロードにもチャレンジしてみました。Colab T4環境です。回しっぱなしで、お仕事終わってふとみると早々にlossが下がっていました。Learing rateを落としてもよかったかも。

 

NER用のモデルは変わらずstockmarksさんのwikipediaによるデータセットを用います。詳しくは、過去記事を見てください。

 

F1 ScoreではEpoch16時の0.870399が最高ですが、Lossが下がったところから考えれば、0.867025~0.864491あたりが落ち着きどころでしょうか。Tokenizerを工夫するなど精度向上の取り組みはあるようですが、お手軽にNERできるのではと思います。分野が違う文章を相手にする場合は再事前学習をしてみたいところ。トライできるネタと計算資源があれば挑戦してみたいです。

 

huggingface.co

 

レーニングログ:

Epoch    Training Loss    Validation Loss    Precision    Recall    F1    Accuracy
1    No log    0.161249    0.755754    0.797806    0.776210    0.955849
2    0.265600    0.196772    0.787519    0.830721    0.808543    0.960486
3    0.265600    0.201703    0.813798    0.859718    0.836128    0.964209
4    0.038900    0.243195    0.797238    0.859718    0.827300    0.961727
5    0.016200    0.273660    0.833582    0.875392    0.853976    0.964470
6    0.016200    0.301998    0.807494    0.861285    0.833523    0.961662
7    0.006600    0.376290    0.808557    0.873824    0.839925    0.962641
8    0.006600    0.330290    0.820307    0.880094    0.849149    0.965711
9    0.004700    0.336784    0.826577    0.862853    0.844325    0.965319
10    0.004100    0.368921    0.830090    0.869122    0.849158    0.966233
(略)
26    0.002100    0.407469    0.856485    0.874608    0.865452    0.968650
27    0.000800    0.366341    0.842424    0.871473    0.856703    0.968389
28    0.000800    0.388787    0.855293    0.880094    0.867516    0.967148
29    0.000700    0.478058    0.845808    0.885580    0.865237    0.967213
30    0.002100    0.446763    0.835347    0.866771    0.850769    0.965254
31    0.002100    0.470415    0.836336    0.873041    0.854294    0.963229
32    0.000200    0.477348    0.850679    0.884013    0.867025    0.965776
33    0.000200    0.470641    0.850679    0.884013    0.867025    0.966299
34    0.000100    0.480480    0.846501    0.881661    0.863724    0.965515
35    0.000000    0.483877    0.847254    0.882445    0.864491    0.965580
36    0.000000    0.486836    0.847254    0.882445    0.864491    0.965646
(略)

50    0.000000    0.510991    0.847483    0.884013    0.865362    0.966103

 

ノート:

gist.github.com