BERT
ModernBERTのembeddingモデルをAPI経由で利用できるように挑戦してみました。ollamaでは現在対応していないようだすし、複雑なプログラムにはならないだろうとチャレンジしてみます。ついでなのでrerankも組み入れてみます。利用しやすいようにOpenAI互換を…
ModernBERTをNERのタスクについてチャレンジしていました。最終的にまとめずに放置していたので整理しました。題材は、stockmark/ner-wikipedia-datasetを利用します。 こちらを参考にします。 www.sbintuitions.co.jp モデルは、こちらのものをありがたく利…
BERTが軽量モデルという位置づけになったのは、いつからだろうか。GPU性能の向上で軽量で分類や固有表現抽出を高速に低リソースで実施できるようになりました。今更・・・と思われるかもしれませんが、後で試したいことがあるので、素振りです。 ModernBERT…
NER(固有名詞抽出)に再び挑戦します。ruri-v3-pt-310m/ruri-v3-310mをStockmark作WikipediaのNER向けdatasetを使って学習させてみます。このモデルでは分かち書きが不要です。しかしながら、学習済みSentencePieceのtokenizerによるトークンとNERの文字単…
多言語コード検索タスクのSentence Transformerモデルである、CodeSearch-ModernBERT-Crow-Plusを試してみます。 huggingface.co 類似コードのデータセットを使ってテストしました。 dataset = [ { "code": """def add(a, b): return a + b""", "comment": "…
コード検索やコード理解を目的とした事前学習済みモデルをXで見かけたので試してみました。こういう特化型モデルは興味深いです。いろいろと作って使えるときっと楽しいでしょう。モデル有難く動かしてみました。 企業の文章だと似たような文章ばかりのもの…
SB Insituionsさんの日本語ModernBERTをFinetuningしたtext embedding modelである、AMBERをlanchainで利用してみます。Retrievalのベンチマーク成績も高く、今後利用してみたいので、基本的な部分を勉強のため実装してみます。日本語の環境がだんだん整って…
bwgift.hatenadiary.jp これまでmodernBERTをNERで活用したいと進めてきました。Huggingfaceへのuploadもbestではなくlast modelをuploadですませたりと雑にやってました。区切りが悪いので補足します。 Best modelを最後にload load_best_model_at_end=True…
KoichiYasuokaさんからHatena Blogにコメントを頂きました。tokenizerに工夫をしては?というものでした。「日本の首相」が「日本の 首相」に分かち書きされています。これでは「日本」を取り出せない。つまり、 今まで:日本の 首相 改善 :日本 の 首相 と…
日本語ModernBERTで10epochsくらい学習させて止まってたので、50epochsまで学習させたモデルを作成しました。Huggingfaceにモデルをアップロードにもチャレンジしてみました。Colab T4環境です。回しっぱなしで、お仕事終わってふとみると早々にlossが下がっ…
ModernBERTによる固有表現抽出を試してみて気になったのでBERT-base-japanese-v3でも試してみます。同じように10epochs学習させてみました。Tokenizer部分などなど必要な部分を変更しますが、学習データやハイパラはそのままです。ざっくりです。 学習は無事…
シーケンス長が最大8192トークンとし、さらにFlash Attentionに対応した改良BERTモデルであるModernBERTが発表されました。このModernBERTを日本語と英語で学習させたモデルをSoftbank Intuitionsさんが公開しました。そこで日本語で固有表現抽出(NER)を実施…