「日本語に特化した指示を付与できるテキスト埋め込みモデル」として、Sarashina-embedding-v2-1Bが公開されました。さっそく、Retrival用途で簡単に実装してみてお試ししてみます。ColabのL4環境でお試ししました。
このモデルでは、queryだけでなく、instructionも利用できます。Instructionとqueryの組み合わせが考慮できます。お試ししてみます。
この方法だと表記ゆれにも対応しやすく、利用しやすいembeddingモデルだと感じました。ライセンスが、特殊なので気軽に利用しにくいため、様子見ですが、このような日本語モデルが登場したのは嬉しいです。
今回利用したインストラクションです。
#インストラクション
instruction = "クエリの回答に近い文章を探してください。"
クエリーと類似順に並べた文章群:
Query: 日本の有名な観光地はどこですか?
Reranked Documents:
1. 東京タワーは日本の象徴的な観光地です。
2. 清水寺も京都にある人気の観光地です。
3. 日本の新幹線はとても速いです。
4. 寿司は日本の代表的な食べ物です。
5. 日本の首都は東京です。
6. エッフェル塔はフランスの有名な観光地です。
7. 奈良公園にはたくさんの鹿がいます。
8. 金閣寺は京都にある美しいお寺です。
Query: 日本の美味しい食べ物は何ですか?
Reranked Documents:
1. 寿司は日本の代表的な食べ物です。
2. 日本の新幹線はとても速いです。
3. 東京タワーは日本の象徴的な観光地です。
4. 日本の首都は東京です。
5. 奈良公園にはたくさんの鹿がいます。
6. 清水寺も京都にある人気の観光地です。
7. エッフェル塔はフランスの有名な観光地です。
8. 金閣寺は京都にある美しいお寺です。
Query: 日本の乗り物で一番目的地に短時間で到着できる移動手段は何ですか?
Reranked Documents:
1. 日本の新幹線はとても速いです。
2. 東京タワーは日本の象徴的な観光地です。
3. エッフェル塔はフランスの有名な観光地です。
4. 寿司は日本の代表的な食べ物です。
5. 清水寺も京都にある人気の観光地です。
6. 日本の首都は東京です。
7. 奈良公園にはたくさんの鹿がいます。
8. 金閣寺は京都にある美しいお寺です。
最後は敢えて文字かぶりが出来るだけないようにしました。新幹線が一番類似度が高いと判断するのはさすがでしょうか。
今回利用したColab: