これまでmodernBERTをNERで活用したいと進めてきました。Huggingfaceへのuploadもbestではなくlast modelをuploadですませたりと雑にやってました。区切りが悪いので補足します。
Best modelを最後にload
load_best_model_at_end=True
Learing Rateの調整
Lossの減り方が雑なのをだったので検討。transformersのget_linear_schedule_with_warmupを利用して、warmup+linearで実施。味見して、初期LRは2e-5でよさそうだった。
Epoch Training Loss Validation Loss Precision Recall F1 Accuracy
1 No log 0.397863 0.183521 0.326425 0.234949 0.888364
2 1.477800 0.139338 0.614911 0.738712 0.671150 0.959714
3 1.477800 0.120770 0.744795 0.820873 0.780986 0.971451
4 0.098300 0.127193 0.795610 0.858623 0.825917 0.971760
5 0.041800 0.144078 0.802659 0.849001 0.825180 0.972907
(略)
14 0.010300 0.227269 0.829285 0.884530 0.856017 0.973658
15 0.006700 0.222720 0.849854 0.863064 0.856408 0.973305
16 0.006700 0.253147 0.848637 0.875648 0.861931 0.973260
17 0.004700 0.242724 0.835470 0.868246 0.851543 0.973128(略)
27 0.004900 0.221020 0.816713 0.860844 0.838198 0.971010
28 0.004900 0.269708 0.844043 0.865285 0.854532 0.971540
29 0.004300 0.287376 0.860207 0.860844 0.860525 0.972731
30 0.003200 0.306841 0.851500 0.861584 0.856512 0.971804
37 0.000700 0.288677 0.866084 0.880829 0.873394 0.975114
(略)40 0.000000 0.318147 0.863439 0.884530 0.873857 0.974672
41 0.000000 0.320801 0.862193 0.884530 0.873219 0.974716
42 0.000000 0.323436 0.862816 0.884530 0.873538 0.974716(略)
47 0.000000 0.335913 0.862193 0.884530 0.873219 0.974805
48 0.000000 0.338335 0.862193 0.884530 0.873219 0.974805
49 0.000000 0.340740 0.862193 0.884530 0.873219 0.974805
50 0.000000 0.343120 0.862193 0.884530 0.873219 0.974849(略)
91 0.000000 0.415268 0.862617 0.883050 0.872714 0.974981
Lossも割と穏やかに下がって行く。この程度から始めればいいという感触が得られました。未知の文章を処理してみたい。どうしてもなら、Optunaでハイパラチューニングコースなのかも。
メモ
Find LRでInitial LRを計算してみたが、参考になるのか、今一つ不明。
Colabノート