Tokenizerを見直してmodernBERTでNERをColabでためしてみる。

KoichiYasuokaさんからHatena Blogにコメントを頂きました。tokenizerに工夫をしては？というものでした。「日本の首相」が「日本の　首相」に分かち書きされています。これでは「日本」を取り出せない。つまり、

今まで：日本の　首相

改善　：日本　の　首相

としたい。納得です。Yasuokaさん、ありがとうございます。

サンプルコードも付けていただいたので、さっそく試してみました。F1-scoreは0.929362と、前回の0.870399より高くなっています。期待通りの結果となりました。このtokenizerの仕様はもったいないですね。今回、利用したTokenizer改だとひらがなが強制的に分かち書きになってしまいます。いいモデルだけにもったいないです。

結果

Epoch Training Loss Validation Loss Precision Recall F1 Accuracy
1 No log 0.051363 0.900688 0.912539 0.906574 0.987150
2 0.041500 0.070157 0.876552 0.928793 0.901917 0.986648
3 0.041500 0.072096 0.894109 0.928019 0.910748 0.987423
4 0.015000 0.079334 0.898021 0.913313 0.905602 0.986466
(略）

12 0.002000 0.115150 0.912879 0.932663 0.922665 0.985600
13 0.002000 0.118678 0.896423 0.931115 0.913440 0.985919
14 0.001100 0.109084 0.890869 0.928793 0.909435 0.984735
15 0.000800 0.121773 0.898649 0.926471 0.912348 0.985327
16 0.000800 0.105681 0.910189 0.933437 0.921666 0.986740
17 0.001500 0.107719 0.912006 0.946594 0.928978 0.987605

（略）

29 0.000000 0.131719 0.917106 0.941950 0.929362 0.986785
30 0.000000 0.131802 0.917106 0.941950 0.929362 0.986785

教えていただいた記事：

qiita.com

このhatena blogは淡々と自分のメモ的に書いてきたため、コメントをいただいていたのに気づきませんでした。勉強になりました。感謝します。

今回のColab notebook

gist.github.com

地平線まで行ってくる。

記録あるいは忘備録。時には検討事項。

Tokenizerを見直してmodernBERTでNERをColabでためしてみる。