Modern-BERT-Jaにパラメータ違いが公開されました。大きく差はでないんじゃないかと予測しつつやってみなきゃわからないということで挑戦してみました。30Mと310Mで学習させてみました。F1-Scoreは310Mが0.881, 30Mが0.873と0.008ポイント差。予測結果を見ると、各予測ラベルのスコアの差でも310Mが当然高くでています。語句によっては大きな差になっているものも散見されました。小型のものが利用できるかは、NERの目的によるところとなると思いますが、使いやすい場面もあるのではと思っています。そもそも、実際に利用する場合は教師データも異なります。日本語最長のトークンを活かして挑戦できそうです。
/
— SB Intuitions (@sbintuitions) 2025年2月27日
📢 先日公開したModernBERT-Ja-130Mに続いて3つの異なるパラメータのBERTモデルを公開‼️
\
新公開モデル
👶 超軽量で高速な30M
👦 軽さと性能を両立した70M
👨 日本語BERT最高性能の310M
全モデル8,192トークンを処理可能(日本語最長)
詳細はこちら⬇️
30M
- F1-Score: 0.873660
Chottokun/modernBERT_japanese_30m_ner_wikipedia · Hugging Face - Colab notebook: modenBERT_JA_30m_NER_sample.ipynb · GitHub
310M
- F1-Score: 0.881713
Chottokun/modernBERT_japanese_ner_wikipedia · Hugging Face - Colab notebook:
modenBERT_JA_310m_NER_sample.ipynb · GitHub