2025-05-01から1ヶ月間の記事一覧
これまで、論文をヒントに幾つかのRAGを作成しました。折角なので、それらの機能を分解し、それぞれの機能を組み合わせてみます。今回もローカルLLMで挑戦です。ollamaで動作させたgemma3:4b-it-qatを利用します。4Bクラスとしては高い性能を有していますが…
引き続き、RAG実装で遊んでみます。AgenticRagをChatGPTに読ませて骨子を確認したら、『「Retrieval → Evaluation → Query Refinement → 再検索 → Response Synthesis」という順序が、まさに論文中の処理パイプラインそのものになっています。各フェーズの出…
Swallowの新しいモデルが公開されましたので、早速試してみます。mmngaさんがGUFFに変換したモデルを利用します。ColabのL4環境を利用します。VRAM占有率は19773MiB / 23034MiBでした。 日本語は、さすがに自然です。比較的簡潔な文章を生成していました。基…
勉強にとRAG実装を味見できるようにしたので、続けてトライします。LLMにはollamaを介してgemma3:4b-it-qatを利用します。このまま、GPT-4.1使っても動作するように準備しています。ローカルLLMの方で気楽に挑戦します。 今回はこの論文を参考にRAGを作って…
LLMを使ったプログラムはすっかり普通になりました。ローカルLLMでも、利用しやすいものも出てきて気軽に利用できます。一方で、RAGは様々な方法が提案がされています。読んだだけで、さくっと実装できて、利用できそうなコードなのかという感触は早めに得た…
ドキュメント通りやれば導入できますが、好きなembeddingモデルを利用したいので、お試ししてみます。 github.com 利用したいruri-v3はmodernBERTベースで8192tokesで利用できます。想定するドキュメントによっては、チャンクサイズを増やしておきたいことも…
軽量モデルのgranite3.3が公開されてました。本家IBMから提供されているGGUFをColabとollamaの組み合わせでお試ししてみます。Colab L4環境でお試しします。VRAM占有率は 6931MiB / 23034MiB(Q4_K_M)でした。やはり小さい・・・。日本語もサポートされたとい…
phi4-reasoning:plusをColab L4環境で試してみました。生成させてみると、とにかく、推論が長い。読むだけでも一苦労です。収納されている知識が中途半端であっても、なんとか答えを正解に近い方に出してきます。長い推論を読んでいると、どういう情報を与え…
ELYZA-Thinking-1.0-Qwen-32B-ggufは、ELYZA社によって訓練された推論モデルです。このモデルは Qwen/Qwen2.5-32B-Instruct がベースですので、能力は期待できます。こちらをmmngaさんによってGGUF化したものを利用します。Colab L4環境でVRAM占有率は 21591…