地平線まで行ってくる。

記録あるいは忘備録。時には検討事項。

karaage0703さんのmcp-rag-serverで他のembeddingモデルをチャレンジしてみる。

ドキュメント通りやれば導入できますが、好きなembeddingモデルを利用したいので、お試ししてみます。

 

github.com

 

利用したいruri-v3はmodernBERTベースで8192tokesで利用できます。想定するドキュメントによっては、チャンクサイズを増やしておきたいこともあるでしょう。ともあれ、別用途で使っていて良好なので使います(笑)

cl-nagoya/ruri-v3-30m · Hugging Face

それぞれのリソースによって、好きなパラメータサイズを利用します。

 

単純な置き換えではできなかったので、書き換えました。こちらのBranchで作業済み。

github.com

 

embedding model毎に特有な設定を.envに逃がします。

# エンベディングモデル
EMBEDDING_MODEL=cl-nagoya/ruri-v3-30m
EMBEDDING_DIM=256
EMBEDDING_PREFIX_QUERY="検索クエリ: "
EMBEDDING_PREFIX_EMBEDDING="検索文書: "

後はこれをコード中で利用するように変更しました。FlashAttentionはCPU利用時に環境構築で失敗するかもしれないので、パッケージに追加していません。有益ならPRというものをやっても迷惑にならないのかもと思いつつ、とりあえず、メモ書きします。

 

結果