地平線まで行ってくる。

記録あるいは忘備録。時には検討事項。

2025-05-01から1ヶ月間の記事一覧

メモ:RAGを実装してみる。理解、分解、再構築。

これまで、論文をヒントに幾つかのRAGを作成しました。折角なので、それらの機能を分解し、それぞれの機能を組み合わせてみます。今回もローカルLLMで挑戦です。ollamaで動作させたgemma3:4b-it-qatを利用します。4Bクラスとしては高い性能を有していますが…

メモ:Rag実装してみる。AgentRagだったんだけど・・・。

引き続き、RAG実装で遊んでみます。AgenticRagをChatGPTに読ませて骨子を確認したら、『「Retrieval → Evaluation → Query Refinement → 再検索 → Response Synthesis」という順序が、まさに論文中の処理パイプラインそのものになっています。各フェーズの出…

mmnga/Gemma-2-Llama-Swallow-27b-it-v0.1-ggufをColabとollamaで試す。

Swallowの新しいモデルが公開されましたので、早速試してみます。mmngaさんがGUFFに変換したモデルを利用します。ColabのL4環境を利用します。VRAM占有率は19773MiB / 23034MiBでした。 日本語は、さすがに自然です。比較的簡潔な文章を生成していました。基…

メモ:論文見ながらRAG実装をしてみる。Muti-Round Agent RAG編

勉強にとRAG実装を味見できるようにしたので、続けてトライします。LLMにはollamaを介してgemma3:4b-it-qatを利用します。このまま、GPT-4.1使っても動作するように準備しています。ローカルLLMの方で気楽に挑戦します。 今回はこの論文を参考にRAGを作って…

メモ:論文を見ながらRAGを実装してみる。

LLMを使ったプログラムはすっかり普通になりました。ローカルLLMでも、利用しやすいものも出てきて気軽に利用できます。一方で、RAGは様々な方法が提案がされています。読んだだけで、さくっと実装できて、利用できそうなコードなのかという感触は早めに得た…

karaage0703さんのmcp-rag-serverで他のembeddingモデルをチャレンジしてみる。

ドキュメント通りやれば導入できますが、好きなembeddingモデルを利用したいので、お試ししてみます。 github.com 利用したいruri-v3はmodernBERTベースで8192tokesで利用できます。想定するドキュメントによっては、チャンクサイズを増やしておきたいことも…

ibm-granite/granite-3.3-8b-instruct-GGUFをollamaとColabで試してみる。

軽量モデルのgranite3.3が公開されてました。本家IBMから提供されているGGUFをColabとollamaの組み合わせでお試ししてみます。Colab L4環境でお試しします。VRAM占有率は 6931MiB / 23034MiB(Q4_K_M)でした。やはり小さい・・・。日本語もサポートされたとい…

phi4-reasoning:plusをollamaとColabで試してみる。

phi4-reasoning:plusをColab L4環境で試してみました。生成させてみると、とにかく、推論が長い。読むだけでも一苦労です。収納されている知識が中途半端であっても、なんとか答えを正解に近い方に出してきます。長い推論を読んでいると、どういう情報を与え…

mmnga/ELYZA-Thinking-1.0-Qwen-32B-ggufをOllamaとColabで試してみる。

ELYZA-Thinking-1.0-Qwen-32B-ggufは、ELYZA社によって訓練された推論モデルです。このモデルは Qwen/Qwen2.5-32B-Instruct がベースですので、能力は期待できます。こちらをmmngaさんによってGGUF化したものを利用します。Colab L4環境でVRAM占有率は 21591…