地平線まで行ってくる。

記録あるいは忘備録。時には検討事項。

ruri-v3-310mをColabで試してみる。

Ruriで8k tokensを処理できるRuri-v3が出たので、楽しみに基本的なところを試します。とりあえず、Colab T4環境で、素振りをやってみました。さくっと利用できそうな感触です。明日から本格的に使ってみます。

 

huggingface.co

 

まずは、基本的なベクトル計算を実施し、ベクトル表示。類似度を計算してみます。類似度は以下のような感じです。langchainから呼び出せるかもついでに確認。

 

--- 明日は雨が降るでしょう。 ---
- 明後日は嵐になります (類似度: 0.9334)
- 雪が降りました。 (類似度: 0.8786)
- 今日は良い天気です。 (類似度: 0.8709)
(割愛)
- 誕生日プレゼントをもらいました。 (類似度: 0.7954)
- 映画を見に行きました。 (類似度: 0.7875)
- お正月は実家に帰ります。 (類似度: 0.7843)
- ゲームで遊んでいます。 (類似度: 0.7795)
- 美味しい料理を食べたいです。 (類似度: 0.7795)

 

Colab : 

gist.github.com

 

次にchunksizeを大きく取れるようにしてみて、実行してみます。

bwgift.hatenadiary.jp

この記事と同じように三国志をつかってみます。ruri-v3で指定のあったprefixを利用します。 

Prefix

  query_prompt_name="検索クエリ: ",
  document_prompt_name="検索文章: "

 

query = "曹操の愛馬の名前は?"

「馬を見給え」と促すと、曹操は、
「はっ、有難く拝領いたします」
と、急いで庭上へ出て、呂布がひいて来た駿馬の鬣をなでながら、
---
曹操は急に、侍臣をどこかへ走らせて、一頭の馬を、そこへ曳かせた。
見ると、全身の毛は、炎のように赤く、眼は、二つの鑾鈴をはめこんだようだった。
「美髯公、君はこの馬に見おぼえはないかね」
---
などと、警蹕のあいだにも、ささやく声が流れる。
この日。
曹操は、「爪黄飛電」と名づける名馬にまたがって、狩装束も華やかに、ひたと天子のお側に寄り添っていた。
---

ちゃんと、馬に関する部分が引かれています。長いテキストのテストなどなどやっていきたいです。

 

Colab:

gist.github.com