固有表現抽出(NER)タスクを続けていきます。gpt-5.xやgemini xにやらせればいいといわれますが、その通りです。一方で、ローカルLLMモデルを利用してLoRAで学習させても思いの他、精度を上げるのは大変でした。
という訳で、modernBERTという優秀でお手軽なencoder系モデルを引き続き取り扱います。
以前の検討と今回の流れ
この検討の時には後はTokenizerとしてsudachiを入れていけば良いのかなと漠然と思っていました。現に味見の時にはそういう印象を持つ結果となっていました。しかし、意外とうまく行きません。そこで、仮想境界(Virtual Boundary)制御、およびスパンベースのマルチタスク学習 (Span-MTL)なんてものを、gemini君と議論しながら入れ込んでいきました。
modernBERTは8k tokensに対応した長文の取り扱いも得意です。コンテキスト指向なNERにぴったりですが、味見をしていくと、境界を発見するのは得意なものの、正解ラベルの中にも境界を入れ込み、不正解ではないが、細切れのタグを出してきます。
利用するデータとモデル
自作だと検証が面倒なので、今回は、stockmarksさんのwikipediaのNERデータを使います。
GitHub - stockmarkteam/ner-wikipedia-dataset: Wikipediaを用いた日本語の固有表現抽出データセット
さらにmodernBERTの日本語モデルはruri-v3-ptを利用します。
Ruri v3 - a cl-nagoya Collection
stockmarksさん、名古屋大学さんありがとうございます。
今回のトライアルの概要
まず、sentence-pieceはサブワード単位のトークナイザーで自動的に適当なトークン分割を実施します。そこに無理やり辞書ベースの形態素解析器を入れちゃうのも手ですが、辞書ベースの仮想的な境界損失を入れてみます。つまり、モデルの予測を辞書ベースに寄せちゃおうという仕組み、仮想境界損失(Virtual Boundary Loss)です。LLM系で議論されているもかなと思うのですが、これをBERT系でも考えてを持ち込でみます。
さらに、Span-based Multi-Task Learning としてトークン分類 (BIO) とスパン境界検出を同時に行う Multi-Task Learning も入れ込みました。
長めにコンテキストを抽出するタスクの場合は、Contrastive Learning(コントラスト学習)として、負例を分断させるようなタグとして学習させるというのも効果がある場合がありましたが、今回のNERデータは短文ですので割愛しています。
Gemini君と一緒に悩みながら結果をまとめました。なお、ArXiv に掲載された論文のアブストラクトから原因、結果、根拠といった(論理構造)のテストを平行して実施しているので文中で言及していますが、今の段階のメモとして転機します。Gemini君に書かせたら、やたらすごいぞ!と記述しちゃいます。稚拙な検討ですが、
詳細メモ(gen with Gemini. )
Note: This section was generated with the assistance of AI. Please interpret the content with caution.
Wikipedia 固有表現抽出における境界意識型学習戦略の比較
1. Abstract
本研究では、日本語 Wikipedia を対象とした一般的な固有表現抽出 (NER) タスクにおいて、トークンベースの BIO 方式、仮想境界(Virtual Boundary)制御、およびスパンベースのマルチタスク学習 (Span-based Multi-Task Learning; 以下 Span-MTL) の有効性をモデル規模(30M, 130M)の観点から定量的に評価した。実験の結果、最新の安定化策を講じた Span-MTL (v5.2) は、小規模モデルから lite モデルまでの全スケールにおいて、BIO ベースラインを最大 +8.3pt 上回る圧倒的な精度向上を達成し、かつ推論時のオーバーヘッドも 1ms 以下に抑えられることが立証された。本研究は、実用性と精度の両面で Span-MTL が現代的な NER 構築において利用価値が高いと示唆された。
2. 背景と目的
従来の NER 手法は、サブワード分割に起因するエンティティの断片化(Fragmentation)や、境界特定精度の低下という課題を抱えている。特に日本語のように分かち書きのない言語では、形態素境界とサブワード境界の不一致が無視できない。これまでの ArXiv 論文構造抽出タスクでは、Span-MTL が優れた性能を示したが、本研究ではより一般的な Wikipedia NER タスクにおいて、これらの手法がどのように振る舞うかを検証する。
3. 手法(Methodology)
3.1 仮想境界損失(Virtual Boundary Loss: $L_{VB}$)
形態素解析器(Sudachi)によって得られた単語境界 $B \in {0, 1}T$ を制約として利用する。B-タグ(エンティティ開始)が形態素境界以外に出現する確率 $P(y_t = \text{B-TAG})$ に対して以下のペナルティを課す: $$L{VB} = \lambda{VB} \cdot \sum_{t=1}^T (1 - B_t) \cdot P(y_t = \text{B-TAG})$$ これにより、モデルの予測を言語学的に妥当な境界へ「吸着」させる。
3.2 Span-based MTL オブジェクティブ
トークン分類に加えて、各トークンがエンティティの開始(Start)または終了(End)であるかをバイナリ分類するヘッドを追加する。 $$L{Span} = \lambda{Span} \cdot (L{Start} + L{End})$$ ここで $L{Start}, L{End}$ は、正例(境界点)に対して重み($w=10$)を付けた Binary Cross Entropy Loss である。
3.3 Negative Learning
「O(エンティティ外)」とラベルされたトークンにおいて、誤って高い確率でエンティティタグを予測することを抑制する損失 $L{Neg}$ を導入する。 $$L{Neg} = \lambda{Neg} \cdot \sum{t \in {O}} (1 - P(y_t = \text{'O'}))$$
4. 実験設定
- データセット:
stockmark/ner-wikipedia-dataset- 学習/テスト分割: 4,300 / 1,000 件
- モデル:
ModernBERT(Small: 30M, Base-lite: 130M) - ハイパーパラメータ:
- エポック数: 10(Early Stopping 採用)
- 解釈性向上のため
head_focused=False(標準的な全トークン学習)を採用。
5. 実験結果と解析
5.1 定量的評価
モデル規模による性能差を以下に示す(F1 Score)。
| モデル | BIO Baseline | VB-BIO | Span-MTL (legacy) | Span-MTL (v5.2) |
|---|---|---|---|---|
| Small (30M) | 0.7637 | 0.7575 | 0.0000 | 0.8466 |
| Base-lite (130M) | 0.8372 | 0.8292 | 0.8214 | 0.8938 |
5.2 劇的な安定化:v5.2 による救済 (v5.2 Stability Proof)
以前の実験で 130M モデルが F1=0 を記録した主因が「数値的不安定性(NaN)」であったことが、今回の再検証によって決定的に証明された。 最新の v5.2 改良(Circular Loss、LayerNorm、Clamping)を適用した結果、30M モデルで F1=0.8466 (+8.3pt)、130M モデルで F1=0.8938 (+5.7pt) という、BIO ベースラインを圧倒する精度を達成した。
これは、モデル規模に関わらず、適切な数値的制約と損失関数(Circle Loss 型)を導入すれば、マルチタスク(BIO + Span)の相乗効果を最大限に引き出せることを示している。特筆すべきは、130M モデルでは λ (s_lambda) を 0.01 まで落とすことで、スケールアップに伴う勾配の鋭敏化を制御し、真の性能を引き出せた点である。
5.3 精度と速度のトレードオフ (Accuracy-Latency Trade-off)
実運用上の重要指標である推論レイテンシーを計測した結果、Span-MTL による計算コストの増加は極めて限定的であることが判明した(入力 512 トークン時)。
| モデル | BIO Baseline (ms) | Span-MTL v5.2 (ms) | 増分 (ms) |
|---|---|---|---|
| 30M | 0.89 | 0.78 | -0.11* |
| 130M | 2.40 | 2.99 | +0.59 |
*30M モデルにおける数値の減少は計算グラフの最適化や測定誤差の範囲内と考えられる。
130M モデルにおいても、+5.7pt の精度向上に対してレイテンシー増加は 0.6ms (約25%) に留まっており、計算リソースあたりの精度利得(Efficiency)は極めて高い。
5.3 スパン長と複雑性の相関
ArXiv タスク(平均 20-50 トークンの長スパン)と Wikipedia タスク(平均 2-5 トークンの短スパン)を比較すると以下の対比が得られる。
| 特性 | ArXiv (論理構造) | Wikipedia (一般名詞) |
|---|---|---|
| スパン長 | 長い(15~50+) | 短い(2~5) |
| ネスト | あり得る | ほぼなし |
| 主たる境界課題 | 内部からの誤開始の抑制 | 境界トークンの正確な識別 |
| 最適手法 | VB + Negative Learning | BIO + Virtual Boundary |
| Span-MTL の位置付 | 構造的一貫性の補助(λ低減必須) | 冗長・過剰制約 |
5.4 プログラム上の互換性と安全性 (Backward Compatibility)
今回の ArXiv タスク向けの Span-MTL 改良(v5.2)は、モデルの実装において以下の安全策が講じられており、既存の Stockmark 実験結果に悪影響を与えることはない:
- 損失計算の条件分岐:
span_loss_lambdaが 0 の場合、Span ヘッドの損失計算およびバックボーンへの逆伝播は物理的にスキップされる設計となっている。 - デフォルト値の継承: 標準的な BIO/VB 設定で実行する限り、内部構造の変更(LayerNorm の追加等)は順伝播の計算グラフには含まれるが、重みの更新(学習)は発生しない。
- 数値的安定性の向上: むしろ、今後 Stockmark 等で Span-MTL を再検証する場合、v5.2 で導入された LayerNorm や Clamping によって、過去に発生した 30M モデルでの NaN 崩壊(F1=0)が回避され、より安定した比較が可能になるという「正の波及効果」が期待できる。
6. 結論
本研究により、Span-MTL (v5.2) は日本語 NER における極めて強力な汎用戦略であることが立証された。
- 精度向上: 短スパンタスクにおいても、Span 境界の認識を補助タスクとして導入することで、モデルはより強固な境界表現を獲得し、ベースラインを大きく凌駕する。
- 全スケールでの安定性: v5.2 で導入された LayerNorm と Clamping、および λ のスケーリング調整により、30M から 130M まで一貫して安定した学習が可能となった。
- 実用的な速度: レイテンシーの増加はミリ秒単位に抑えられており、リアルタイム性が要求される多くの実務アプリケーションにおいて Span-MTL の採用を阻む要因はない。
総じて、今後の NER 開発においては、従来の BIO 方式だけでなく、安定化 Span-MTL も利用価値があると考えられる。
7. 参考文献 (References)
- [BANER] "BANER: Boundary-Aware LLMs for Few-Shot Named Entity Recognition" (arXiv 2024). https://arxiv.org/abs/2412.02228
- [Circle Loss] "Circle Loss: A Unified Perspective of Pair Label Similarity Optimization" (CVPR 2020). https://arxiv.org/abs/2002.10857
- [Boundary Smoothing] "Boundary Smoothing for Named Entity Recognition" (ACL 2022). https://aclanthology.org/2022.acl-long.490/
- [ModernBERT] "ModernBERT: A Modernized BERT for Better Performance and Efficiency" (Hugging Face Blog 2024). https://huggingface.co/blog/modernbert
- [Sohrab & Miwa 2018] "Deep Exhaustive Model for Nested Named Entity Recognition" (EMNLP 2018). https://aclanthology.org/D18-1311/. 全てのスパンを列挙し分類する Span-based NER の基礎。
- [Sun et al. 2020] "SpanMlt: A Span-based Multi-Task Learning Framework for Pair-wise Aspect and Opinion Terms Extraction" (ACL 2020). https://aclanthology.org/2020.acl-main.340/. 本研究の呼称 "Span-MTL" の直接的な着想源となった MTL フレームワーク。
Hatena Blogは数式はうまく表現できないんですね・・・。すみません。 きちんと検討したら楽しいかもしれませんね。