地平線まで行ってくる。

記録あるいは忘備録。時には検討事項。

メモ:modernBERT(日本語)でNER

bwgift.hatenadiary.jp

 

これまでmodernBERTをNERで活用したいと進めてきました。Huggingfaceへのuploadもbestではなくlast modelをuploadですませたりと雑にやってました。区切りが悪いので補足します。

 

Best modelを最後にload

load_best_model_at_end=True

 

Learing Rateの調整

Lossの減り方が雑なのをだったので検討。transformersのget_linear_schedule_with_warmupを利用して、warmup+linearで実施。味見して、初期LRは2e-5でよさそうだった。

 

Epoch    Training Loss    Validation Loss    Precision    Recall    F1    Accuracy
1    No log    0.397863    0.183521    0.326425    0.234949    0.888364
2    1.477800    0.139338    0.614911    0.738712    0.671150    0.959714
3    1.477800    0.120770    0.744795    0.820873    0.780986    0.971451
4    0.098300    0.127193    0.795610    0.858623    0.825917    0.971760
5    0.041800    0.144078    0.802659    0.849001    0.825180    0.972907
(略)
14    0.010300    0.227269    0.829285    0.884530    0.856017    0.973658
15    0.006700    0.222720    0.849854    0.863064    0.856408    0.973305
16    0.006700    0.253147    0.848637    0.875648    0.861931    0.973260
17    0.004700    0.242724    0.835470    0.868246    0.851543    0.973128

(略)

27    0.004900    0.221020    0.816713    0.860844    0.838198    0.971010
28    0.004900    0.269708    0.844043    0.865285    0.854532    0.971540
29    0.004300    0.287376    0.860207    0.860844    0.860525    0.972731
30    0.003200    0.306841    0.851500    0.861584    0.856512    0.971804
37    0.000700    0.288677    0.866084    0.880829    0.873394    0.975114
(略)

40    0.000000    0.318147    0.863439    0.884530    0.873857    0.974672
41    0.000000    0.320801    0.862193    0.884530    0.873219    0.974716
42    0.000000    0.323436    0.862816    0.884530    0.873538    0.974716

(略)

47    0.000000    0.335913    0.862193    0.884530    0.873219    0.974805
48    0.000000    0.338335    0.862193    0.884530    0.873219    0.974805
49    0.000000    0.340740    0.862193    0.884530    0.873219    0.974805
50    0.000000    0.343120    0.862193    0.884530    0.873219    0.974849

(略)

91    0.000000    0.415268    0.862617    0.883050    0.872714    0.974981

 

Lossも割と穏やかに下がって行く。この程度から始めればいいという感触が得られました。未知の文章を処理してみたい。どうしてもなら、Optunaでハイパラチューニングコースなのかも。

 

メモ

Find LRでInitial LRを計算してみたが、参考になるのか、今一つ不明。


Colabノート

gist.github.com