地平線まで行ってくる。

記録あるいは忘備録。時には検討事項。

ModernBERT-Ja-310m/30mとColabでNERを試してみる。

Modern-BERT-Jaにパラメータ違いが公開されました。大きく差はでないんじゃないかと予測しつつやってみなきゃわからないということで挑戦してみました。30Mと310Mで学習させてみました。F1-Scoreは310Mが0.881, 30Mが0.873と0.008ポイント差。予測結果を見ると、各予測ラベルのスコアの差でも310Mが当然高くでています。語句によっては大きな差になっているものも散見されました。小型のものが利用できるかは、NERの目的によるところとなると思いますが、使いやすい場面もあるのではと思っています。そもそも、実際に利用する場合は教師データも異なります。日本語最長のトークンを活かして挑戦できそうです。

／
📢 先日公開したModernBERT-Ja-130Mに続いて3つの異なるパラメータのBERTモデルを公開‼️
＼

新公開モデル
👶 超軽量で高速な30M
👦 軽さと性能を両立した70M
👨‍ 日本語BERT最高性能の310M

全モデル8,192トークンを処理可能（日本語最長）
詳細はこちら⬇️
— SB Intuitions (@sbintuitions) 2025年2月27日

bwgift.hatenadiary.jp

30M

F1-Score: 0.873660
Chottokun/modernBERT_japanese_30m_ner_wikipedia · Hugging Face
Colab notebook: modenBERT_JA_30m_NER_sample.ipynb · GitHub

310M

F1-Score: 0.881713
Chottokun/modernBERT_japanese_ner_wikipedia · Hugging Face
Colab notebook:
modenBERT_JA_310m_NER_sample.ipynb · GitHub