目先を変えて色んなRAG方式による回答を試したいので、RAGお試しを作ってみることにしました。汎用的ではありませんが、新しい論文がでたらGemini CLIあたりを使って、追加実装できるような程度に設計用のドキュメントを用意して実装してみました。basicなRAGやMultiQuery、DeepRAGを組み込みました。プロンプトや様々なパラメータ依存性はあるにせよ手を動かして感触を得るのは大事です、たぶん。Vibe Codingありがたや。
おまけでユーザー毎にログインしたら、データセットを複数準備できるようにしました。
利用LLMは、gemma3:4b-it-qat、embeddingは、all-MiniLM-L6-v2と気軽に動作できるものです。
OLLAMA_MODEL=gemma3:4b-it-qat
OLLAMA_EMBEDDING_MODEL=mahonzhan/all-MiniLM-L6-v2
手元の複数の論文(PDF)を読み込ませて回答をさせてみました。4bモデルでも大きな破綻がなさそうです。優秀なモデルを公開していただいて感謝です。
今後の課題:
・チャンク戦略(サイズなど)を調整できるようにする。
・対応LLMを増やす。
これから:
RAG幻滅期に入っているとの分析も出てきています。PDFや神エクセルをなんでもかんでも突っ込めば、なかなか精度が上がらないのは自明の理です。しかしながら、地味なデータの収集や整理に工数確保して利用価値を確保する判断は難しい。RAG自体を入れれば解決するような誤解が解消されていく時期なのかもしれません。情報技術だけではなく、保有技術とをどう情報技術的に構造化するのか、そこに工数を割くべきということが段々理解されていくのでしょう。
こままでのトライアル: