地平線まで行ってくる。

記録あるいは忘備録。時には検討事項。

BERT

ModernBERTのEmbedding APIサーバーをつくってみる。

ModernBERTのembeddingモデルをAPI経由で利用できるように挑戦してみました。ollamaでは現在対応していないようだすし、複雑なプログラムにはならないだろうとチャレンジしてみます。ついでなのでrerankも組み入れてみます。利用しやすいようにOpenAI互換を…

日本語ModernBERTをNERで利用してみる。トークナイザーを整理した。

ModernBERTをNERのタスクについてチャレンジしていました。最終的にまとめずに放置していたので整理しました。題材は、stockmark/ner-wikipedia-datasetを利用します。 こちらを参考にします。 www.sbintuitions.co.jp モデルは、こちらのものをありがたく利…

ModernBERT, cl-nagoya/ruri-v3-pt-30mを使ってColabで分類のファインチューニングを試みる。

BERTが軽量モデルという位置づけになったのは、いつからだろうか。GPU性能の向上で軽量で分類や固有表現抽出を高速に低リソースで実施できるようになりました。今更・・・と思われるかもしれませんが、後で試したいことがあるので、素振りです。 ModernBERT…

ruri-v3-pt-310m/ruri-v3-310mでNERをやってみる

NER(固有名詞抽出)に再び挑戦します。ruri-v3-pt-310m/ruri-v3-310mをStockmark作WikipediaのNER向けdatasetを使って学習させてみます。このモデルでは分かち書きが不要です。しかしながら、学習済みSentencePieceのtokenizerによるトークンとNERの文字単…

CodeSearch-ModernBERT-Crow-PlusをColabで試してみる。

多言語コード検索タスクのSentence Transformerモデルである、CodeSearch-ModernBERT-Crow-Plusを試してみます。 huggingface.co 類似コードのデータセットを使ってテストしました。 dataset = [ { "code": """def add(a, b): return a + b""", "comment": "…

codeembed-modernbert-owl-previewをcolabで試してみる。

コード検索やコード理解を目的とした事前学習済みモデルをXで見かけたので試してみました。こういう特化型モデルは興味深いです。いろいろと作って使えるときっと楽しいでしょう。モデル有難く動かしてみました。 企業の文章だと似たような文章ばかりのもの…

日本語ModernBERTのFT版、AMBERをLangchainでembeddingとしてColabで使ってみる。

SB Insituionsさんの日本語ModernBERTをFinetuningしたtext embedding modelである、AMBERをlanchainで利用してみます。Retrievalのベンチマーク成績も高く、今後利用してみたいので、基本的な部分を勉強のため実装してみます。日本語の環境がだんだん整って…

メモ:modernBERT(日本語)でNER

bwgift.hatenadiary.jp これまでmodernBERTをNERで活用したいと進めてきました。Huggingfaceへのuploadもbestではなくlast modelをuploadですませたりと雑にやってました。区切りが悪いので補足します。 Best modelを最後にload load_best_model_at_end=True…

Tokenizerを見直してmodernBERTでNERをColabでためしてみる。

KoichiYasuokaさんからHatena Blogにコメントを頂きました。tokenizerに工夫をしては?というものでした。「日本の首相」が「日本の 首相」に分かち書きされています。これでは「日本」を取り出せない。つまり、 今まで:日本の 首相 改善 :日本 の 首相 と…

最後に日本語ModernBERTでColabでNERしてhuggingfaceにuploadしてみる。

日本語ModernBERTで10epochsくらい学習させて止まってたので、50epochsまで学習させたモデルを作成しました。Huggingfaceにモデルをアップロードにもチャレンジしてみました。Colab T4環境です。回しっぱなしで、お仕事終わってふとみると早々にlossが下がっ…

参考のためにbert-base-japanese-v3で固有表現抽出をColabで試してみる。

ModernBERTによる固有表現抽出を試してみて気になったのでBERT-base-japanese-v3でも試してみます。同じように10epochs学習させてみました。Tokenizer部分などなど必要な部分を変更しますが、学習データやハイパラはそのままです。ざっくりです。 学習は無事…

ModernBERTで固有表現抽出を日本語とColabで試してみる。

シーケンス長が最大8192トークンとし、さらにFlash Attentionに対応した改良BERTモデルであるModernBERTが発表されました。このModernBERTを日本語と英語で学習させたモデルをSoftbank Intuitionsさんが公開しました。そこで日本語で固有表現抽出(NER)を実施…