ドキュメント通りやれば導入できますが、好きなembeddingモデルを利用したいので、お試ししてみます。
利用したいruri-v3はmodernBERTベースで8192tokesで利用できます。想定するドキュメントによっては、チャンクサイズを増やしておきたいこともあるでしょう。ともあれ、別用途で使っていて良好なので使います(笑)
cl-nagoya/ruri-v3-30m · Hugging Face
それぞれのリソースによって、好きなパラメータサイズを利用します。
単純な置き換えではできなかったので、書き換えました。こちらのBranchで作業済み。
embedding model毎に特有な設定を.envに逃がします。
# エンベディングモデル
EMBEDDING_MODEL=cl-nagoya/ruri-v3-30m
EMBEDDING_DIM=256
EMBEDDING_PREFIX_QUERY="検索クエリ: "
EMBEDDING_PREFIX_EMBEDDING="検索文書: "
後はこれをコード中で利用するように変更しました。FlashAttentionはCPU利用時に環境構築で失敗するかもしれないので、パッケージに追加していません。有益ならPRというものをやっても迷惑にならないのかもと思いつつ、とりあえず、メモ書きします。
結果
