コンテキスト指向な NER をColabで味見してみる。

BERTやModernBERT（Ruri-v3など）のようなTransformerベースのモデルは、内部的に Self-Attention メカニズムを持っており、文全体のコンテキストを考慮して各トークンのベクトルを決定しています。そのため文脈を考慮して、NERでは地名（LOC）か企業名（ORG）と言った固有表現を抽出できます。大変便利です。

すっかり高性能になったLLMを使えば、原因と結果といった事象フレームの抽出は可能です。大量のドキュメントの整理だけではなく、軽量な分類・抽出器はこれから実務的に有効だろうと思います。コモディティ化したからこそ出番ですよね(笑)。例えば、入力したら、即抽出したコンテキスト表示すれば、文書の入力の質が上がります。

素人がつらつら書いてみましたが、個人の手元の貧弱なPCで検討できるので楽しいですよ。

とりあえず、20件程度の教師データを使って学習させてみました。そのモデルを使って、原因と結果を抽出します。

入力文: システム障害によりサービスが停止した。
抽出結果:
- [CAUSE] システム障害 (信頼度: 0.9999)
- [EFFECT] サービスが停止した (信頼度: 0.9999)

テストサンプル極小なので過学習気味です。

教師データはLLMでアノテーションすればいいと思うと気が楽ですよね。

Colabノートです。

gist.github.com

ちょっと改良ポイントありですね・・・。

地平線まで行ってくる。

記録あるいは忘備録。時には検討事項。

コンテキスト指向な NER をColabで味見してみる。