2025-06-01から1ヶ月間の記事一覧
信頼できそうなMCPサーバーが増えてきました。Microsoft Learn Docsは、マイクロソフト系の情報を得る貴重なサイトです。ですが、MS素人の私には、これが分かり難い。ClineでMicrosoft Learn Docs MCPと接続したら非常に便利でした。簡単な検索クライアント…
Llama 3.1 8Bをベースにして日本語強化のバージョン強化をしたLlama-3.1-Swallow-8B-Instruct-v0.5が公開されていました。Swallowとは言え、8Bモデルです。ここまで小さいモデルでしかも量子化モデル。mmngaさん作のGUFFを利用します。ColabのL4環境で試しま…
Mistal-Small-3.2-24Bの2506バージョンを試してみます。2503バージョンよりも改善しているとのことです。2503は他の同クラスのものと比較して日本語で見る限りは見劣りをしていました。2506でどうか・・・気になります。ColabのL4環境で実行します。VRAM占有…
メモ:論文を見ながらRAGを実装してみる。RAG+: Enhancing Retrieval-Augmented Generation with Application-Aware Reasoning
RAG+: Enhancing Retrieval-Augmented Generation with Application-Aware Reasoningという手法の論文が発表されていましたので試してみます。とにかく、動くところまで実装してみます。この方法のポイントは、RAGとして与えるコンテキストを、KnowledgeとAp…
RAGのハイブリット検索を試してみます。ハイブリットということで複数の検索方法で検索した結果をRAGで利用するというものです。Langchainでは、multiple retrieversとして、EmsambleRetrieverを使った実装が紹介されています。 python.langchain.com ベクト…
Mistral AIの小型モデルをollamaで試してみます。ColabのL4環境で試します。VRAM占有率は15525MiB / 23034MiBでした。 日本語の出力もしっかりです。英語が混じりになることもわずかにありますが、GUFFファイル作成時に日本語チューニングがしっかりすれば減…
Qwen3ベースのEZO-8Bベータ版を試してみます。mmngaさんがGGUFに変換したモデルを利用してcolab L4環境で動作させました。 VRAM占有率は6545MiB / 23034MiBでした。これまでもEZOモデルはいい感じでベースモデルから性能を上げています。今回は、8Bでも高い…
GoogleのAIコーディングアシスタントJulesを試してみます。題材はDeep Researchもどきです。OpenAIなりのAPIを使わずにローカルのgemma3:4b-it-qatを利用してテストします。UIはstreamlitを使って実装します。それなりに利用できるようなものを目指します。 …
v1.0となったABEJA-Qwen2.5-32b-Japanese。v0.1の頃もいい感じだったので、期待してお試しします。mmngaさんの手によってGGUFとしたモデルを利用し、Colab L4環境でお試しします。21673MiB / 23034MiBのVRAM占有率でした。 32Bの量子化モデルであれば、実用…