地平線まで行ってくる。

記録あるいは忘備録。時には検討事項。

LLM

Qwe3-VL-30B-A3Bにmarioを見せてみる。 #6

Qwen3-VL-30B-A3B-InstructはMarioのゲーム画面を記述させてみます。Colab A100 環境で行いました。VRAM占有率は、66935MiB / 81920MiB でした。 huggingface.co 公式のQuickstartにそって準備します。flash_attentionは有効化し実行しました。 位置関係や状…

ibm-granite/granite-4.0-h-small-GGUFをollamaとcolabで試してみる。

地味なところを攻めている印象のIBM。granite-4.0-h-smallのGUFFをお試ししてみます。ColabのL4環境で実行しました。VRAM占有率は19443MiB / 23034MiBでした。 huggingface.co すっかり進歩したSLMの中で、32Bの多言語対応モデルとして突出した印象はありま…

ColabでGEPAを参考にプロンプト最適化を考えてみる。

プロンプトを「Reflection(自然言語による自己反省)」と「Genetic-Pareto Optimization(進化的パレート最適化)」するという論文が紹介されてました。参考にしつつ、分かる部分範囲で試してみます。なお、論文の実装の検証目的ではありません。論文にはさ…

さくらのAI EngineをColabで試してみる。

SAKURA internetではGPUがある?ということで、(個人で設置は厳しいですが)gpt-oss-120bやQwen, llm-jpのモデルを利用できるAPIのサービスを始めました。さっそく、設定して、Chat Completionを呼び出してみます。 www.sakura.ad.jp こちらのサイトに従っ…

ModernBERTのEmbedding APIサーバーをつくってみる。

ModernBERTのembeddingモデルをAPI経由で利用できるように挑戦してみました。ollamaでは現在対応していないようだすし、複雑なプログラムにはならないだろうとチャレンジしてみます。ついでなのでrerankも組み入れてみます。利用しやすいようにOpenAI互換を…

K2-Think-ggufをollamaとColabで試してみる。

K2-Think-ggufをmmngaさんによるGUFF化されたモデルで試してみます。小型モデルで優秀とのこと。最近すっかり小型モデルが優秀でなので、びっくりする楽しみは減りましたが・・・。ColabのL4を利用します。VRAM占有率は20323MiB / 23034MiB でした。 結果: …

VibeVoiceで日本語の音声生成をColabで試してみる。

Microsoft1がポッドキャストでの会話ような自然な会話音声を生成するモデルを公開しました。Colabを利用します。サンプルプログラムはT4用でVibeVoice-1.5Bですが、ColabのL4環境でより大きいVibeVoice-7B-Previewにもチャレンジしてみました。 英語の会話は…

gemma-3-270m-itをColabでfull_finetune #2

gemma-3-270m-itはコンパクトで、Googleさんからもfull_finetuneするコードが公開されています。〇〇風なチューニングではなく、QAセットで情報追加にチャレンジしてみます。ベースはGoogleさんが提供したColabノートを利用します。ColabのL4環境で実行しま…

gemma-3-270m-itを自作データでColabでファインチューニングしてみる。

Googleから公開されたGemma3 270M。FineTuringの方法も記載されています。そちらを利用してColabのL4環境で(雑な)自作データで学習をさせます。databricks-dolly-15kをローカルLLMでギャル語風に変換したデータです。 1h20mの学習時間でそれらしい出力が得…

Sarashina-embedding-v2-1Bで類似検索をColabで試してみる

「日本語に特化した指示を付与できるテキスト埋め込みモデル」として、Sarashina-embedding-v2-1Bが公開されました。さっそく、Retrival用途で簡単に実装してみてお試ししてみます。ColabのL4環境でお試ししました。 huggingface.co このモデルでは、queryだ…

メモ:いろんなRAGを試せるようにしてみる。

目先を変えて色んなRAG方式による回答を試したいので、RAGお試しを作ってみることにしました。汎用的ではありませんが、新しい論文がでたらGemini CLIあたりを使って、追加実装できるような程度に設計用のドキュメントを用意して実装してみました。basicなRA…

gemma3(270M)をollamaとColabでためしてみる。

小型LLMの中でも、Googleのgemma3の超小型のLLMモデルを試します。ColabのT4環境です。ollama公式のgemma3:270mとUnsloth: 270m-itをColabのT4環境で試してみます。 日本語のチューニングもされてないので、日本語怪しいかも・・・と思ったのですが、日本語…

OpenAI GPT-OSS 20Bをunslothを使ってColabでファインチューニングしてみる。

OpenAI GPT-OSS 20Bをunslothを使ってColabでファインチューニングに挑戦します。難しいチューニングは破綻の元なので、言葉じりを変える程度のチューニングを実施します。unslthの公式Colabを参考にして進めます。ColabのL4環境で実施します。 データセット…

簡単なFastAPIを利用したMCP RAG Serverを作成してみる。

Model Context Protocol (MCP)に準拠したRAG(Retrieval-Augmented Generation)機能を持つMCPサーバを機能を絞って簡単なものを作ってみます。ローカルで運用するのではなく、別サーバーで運用できるようにします。 ここのところお気に入りのjules君と作業…

Colabとollamaでlangextractをためしてみます。

GoogleがOSSとして発表したlangextract。非構造化なテキストから構造化情報を得ることができます。structured outputとかでうまく収得することもできるので、敢えて必要なのかな・・・と思いつつ試してみました。Colabで試してみます。LLMは「Qwen3-4B-Instr…

gpt-oss:20bをollamaとColabで試してみる。

OpenAIのSLMであるgpt-oss:20bをColabのL4環境で試してみます。VRAM占有率は15207MiB / 23034MiB です。モデルはollama公式で提供されているgpt-oss-20bを利用します。楽しみです。 今の時点では、このサイズ感でタスクに使いやすいのはQwenのモデルかも・・…

qwen3:30b-a3b-instruct-2507-q4_K_MをColabとollamaでためしてみる。

帰ってきたので、お試ししたかったqwen3:30b-a3b-instruct-2507-q4_K_Mを試してみます。モデルはollama公式に上がっているものを利用します。ColabのL4環境でためします。VRAM占有率は 18595MiB / 23034MiBでした。 期待通りの性能でq4_K_Mでもいい感じです…

基本的なテキスト解析を振り返りつつ、LLMの解析を組み入れてみる。

LLMになんでも頼りがちですが、基本的な言語解析はざっくり把握には大切です。数的なボリューム感を把握しておくというのは大事です。そこで、nlplot をよく利用させていただいていました。また、センチメント解析や分類タスクもLLMでは定番です。ローカルLL…

メモ:Google julesのお題としてRAG戦略のテストができるものを作ってみた。

julesはGoogleのAIエージェントです。ベータテスト中のため、ごりごりお試しできそうだったので、RAGのお試し環境を構築してみます。 以下の様な機能を持つようなお試し環境をかんがえました。 0. 簡単なUIでRAGをお試しできる。 1. User管理ができ、User別…

gemma3n:e4bをollamaとColabでためしてみる。

gemma3n:e4bを試してみます。端末で動作させる前提なので、PCでもきっと活躍してくれるはずです。モデルはollamaの公式のものです。ColabのL4環境でお試しします。VRAM占有率は 7789MiB / 23034MiBなので、T4でも動作は出来ると思います。 知識は豊富とは言…

mmnga/Llama-3.1-Swallow-8B-Instruct-v0.5-ggufをollamaとColabでためしてみる。

Llama 3.1 8Bをベースにして日本語強化のバージョン強化をしたLlama-3.1-Swallow-8B-Instruct-v0.5が公開されていました。Swallowとは言え、8Bモデルです。ここまで小さいモデルでしかも量子化モデル。mmngaさん作のGUFFを利用します。ColabのL4環境で試しま…

unsloth/Mistral-Small-3.2-24B-Instruct-2506-GGUFをColabとollamaで試してみる

Mistal-Small-3.2-24Bの2506バージョンを試してみます。2503バージョンよりも改善しているとのことです。2503は他の同クラスのものと比較して日本語で見る限りは見劣りをしていました。2506でどうか・・・気になります。ColabのL4環境で実行します。VRAM占有…

メモ:論文を見ながらRAGを実装してみる。RAG+: Enhancing Retrieval-Augmented Generation with Application-Aware Reasoning

RAG+: Enhancing Retrieval-Augmented Generation with Application-Aware Reasoningという手法の論文が発表されていましたので試してみます。とにかく、動くところまで実装してみます。この方法のポイントは、RAGとして与えるコンテキストを、KnowledgeとAp…

メモ:RAGのハイブリッド検索を構築してみる

RAGのハイブリット検索を試してみます。ハイブリットということで複数の検索方法で検索した結果をRAGで利用するというものです。Langchainでは、multiple retrieversとして、EmsambleRetrieverを使った実装が紹介されています。 python.langchain.com ベクト…

bartowski/mistralai_Magistral-Small-2506-GGUFをollamaとColabでためしてみる。

Mistral AIの小型モデルをollamaで試してみます。ColabのL4環境で試します。VRAM占有率は15525MiB / 23034MiBでした。 日本語の出力もしっかりです。英語が混じりになることもわずかにありますが、GUFFファイル作成時に日本語チューニングがしっかりすれば減…

mmnga/Qwen3-EZO-8B-beta-ggufをColabとollamaでためしてみる。

Qwen3ベースのEZO-8Bベータ版を試してみます。mmngaさんがGGUFに変換したモデルを利用してcolab L4環境で動作させました。 VRAM占有率は6545MiB / 23034MiBでした。これまでもEZOモデルはいい感じでベースモデルから性能を上げています。今回は、8Bでも高い…

ABEJA-Qwen2.5-32b-Japanese-v1.0をollamaとColabで試す。

v1.0となったABEJA-Qwen2.5-32b-Japanese。v0.1の頃もいい感じだったので、期待してお試しします。mmngaさんの手によってGGUFとしたモデルを利用し、Colab L4環境でお試しします。21673MiB / 23034MiBのVRAM占有率でした。 32Bの量子化モデルであれば、実用…

メモ:RAGを実装してみる。理解、分解、再構築。

これまで、論文をヒントに幾つかのRAGを作成しました。折角なので、それらの機能を分解し、それぞれの機能を組み合わせてみます。今回もローカルLLMで挑戦です。ollamaで動作させたgemma3:4b-it-qatを利用します。4Bクラスとしては高い性能を有していますが…

メモ:Rag実装してみる。AgentRagだったんだけど・・・。

引き続き、RAG実装で遊んでみます。AgenticRagをChatGPTに読ませて骨子を確認したら、『「Retrieval → Evaluation → Query Refinement → 再検索 → Response Synthesis」という順序が、まさに論文中の処理パイプラインそのものになっています。各フェーズの出…

mmnga/Gemma-2-Llama-Swallow-27b-it-v0.1-ggufをColabとollamaで試す。

Swallowの新しいモデルが公開されましたので、早速試してみます。mmngaさんがGUFFに変換したモデルを利用します。ColabのL4環境を利用します。VRAM占有率は19773MiB / 23034MiBでした。 日本語は、さすがに自然です。比較的簡潔な文章を生成していました。基…