地平線まで行ってくる。

記録あるいは忘備録。時には検討事項。

LLM

Qwen3-Swallow-8B-SFT-v0.2をColabで試してみる。

Qwen3, GPT-OSSの日本語チューンナップモデルであるSwallowが公開されました。QwenもGPT-OSSといったベースも良い出来なので期待しますよね。Colab L4環境で動作させてみました。 zenn.dev huggingface.co Colabでどうやって動かそうかと考えましたがvLLMを…

Dify用にruri-v3を使ってOpen AI互換 embedding APIサーバーを作ってみる。

日本語APIで軽量さと精度のバランスが良く、prefix含み8k tokensを入力できるruri-v3は、embeddingモデルととても便利に使っています。modernBERTベースでSentencepiceをトークナイザーとして用いています。大変便利なので、embedding APIサーバーを作ってみ…

picoclawをopenai互換とdocker composeで利用してみる。2026/2/14時点

PicoClawはOpenClawのGo実装版でコンパクトです。ローカルLLMやOpenAI互換の他のプロバイダで利用するとうまくいかなかったので、メモを書きました。答えは、vLLMで使おう・・・これだけです。もともと組み込み以外のプロバイダはOpenRouterへの設定に流れま…

ResarchツールをローカルLLMで動かしてみる。

Deep Researchのような調査ツールをローカルLLMと組み合わせてみたら、どこまで使えるのでしょう・・・と思って、作ってみました。この手のレポジトリはすでにあると思います。 狙い 1. ローカルLLMの軽量級であるollamaとgemma3:4b-it-qatの組み合わせでど…

Qwen3-TTSをColabで試してみる。

テキストで指示した音声でしゃべってくれるQwen3-TTSモデル(Qwen3-TTS-12Hz-1.7B-VoiceDesign)を試してみました。Colab T4環境でVRAM占有率は8.4 / 15.0 GBでした。Colabのノートブックは最後にリンクします。 huggingface.co instructのテキストだけで色ん…

translategemma:4bをColabで試してみる。

translategemmaはGoogleが公開した翻訳モデルです。Gemma 3ベースでオープンなモデルで気軽に使えます。Googleさんありがとうございます。早速、Colab L4環境でollama公式にあるtranslategemma:4bで試してみました(VRAM 利用率:3.8GB/22.5GB)。 4bのモデル…

ACE FrameworkベースにLTMをじっくり試してみる。

Colabを使ってACE(Agentic Context Engineering)という考え方を試してみました。コンテキストエンジニアリングを考える良い機会になりました。また、そもそも情報をどう蓄積して、検索し引き出して投入するのか、を考える良いきっかけとなりました。 bwgif…

Model-First ReasoningをColab+さくらのAI Engineで試してみる

はじめに Model-First Reasoning(MFR)は、推論に先立って問題の構造を明示的にモデル化することをエージェントに要求することで、ハルシネーションを抑制し信頼性の高いAIシステムを構築するための基礎的なコンポーネントとなるアプローチです。推論(生成)…

Chatに4層のメモリー(履歴)機能を組み込んでローカルLLMを使ってみるテスト

Chatにおけるメモリー機能の記事を読みました。RAGを使わない、というよりも、検索を伴うRAGに適さない基軸的な情報を用意しておく必要があるのでしょう。要は、LLMに投入するプロンプト(コンテキスト)中にメモリー機能とする情報を含ませておく、という理…

Chatにメモリー機能をローカルLLMを使って組み込んでみるテスト

chatGPTやcopilotではメモリー機能が組み込んであります。親しみは増えますが、ちょっと気持ち悪さも感じます。普段タスクとして投げていることが多いので、会話に慣れていないのかもしれません。しかしながら、このメモリー機能、質問が簡略化ですませられ…

LibreChatでCode Interpreter周りを自作して動かしてみる。

LibreChatはChatGPT UI likeなAIチャットプラットフォームです。よく、見かけますよね。Code Interpreterの環境をカスタマイズしたかったので、作成してみました。たぶん、どこかにあるんだと思うんですが・・・。下調べをした後にGemini Cliに頼りつつ進め…

Open NotebookをollamaとさくらのAI Engineで試してみる。

GoogleのNotebook LMは大変有用なサービスです。しかし、利用しようにも利用できない事情が絡む場合があります。そこで、最近日本語の紹介文も増えてきたOpen Notebookを試してみます。 触った結果: ollamaでLLMとしてGemma3:4bでトライしましたが、回答精…

gpt-oss-safeguardをColabで普通に使ってみる

「oss-safeguard は、ポリシー(ルール)に従ってテキスト内容を分類・判断できる reasoning(推論)モデル」です。“harmony”フォーマットによって、違反の理由を出力するのが特徴。専門用語には、業界的には問題なくても一般的には俗的な言葉が使われる時が…

Qwe3-VL-30B-A3Bにmarioを見せてみる。 #6

Qwen3-VL-30B-A3B-InstructはMarioのゲーム画面を記述させてみます。Colab A100 環境で行いました。VRAM占有率は、66935MiB / 81920MiB でした。 huggingface.co 公式のQuickstartにそって準備します。flash_attentionは有効化し実行しました。 位置関係や状…

ibm-granite/granite-4.0-h-small-GGUFをollamaとcolabで試してみる。

地味なところを攻めている印象のIBM。granite-4.0-h-smallのGUFFをお試ししてみます。ColabのL4環境で実行しました。VRAM占有率は19443MiB / 23034MiBでした。 huggingface.co すっかり進歩したSLMの中で、32Bの多言語対応モデルとして突出した印象はありま…

ColabでGEPAを参考にプロンプト最適化を考えてみる。

プロンプトを「Reflection(自然言語による自己反省)」と「Genetic-Pareto Optimization(進化的パレート最適化)」するという論文が紹介されてました。参考にしつつ、分かる部分範囲で試してみます。なお、論文の実装の検証目的ではありません。論文にはさ…

さくらのAI EngineをColabで試してみる。

SAKURA internetではGPUがある?ということで、(個人で設置は厳しいですが)gpt-oss-120bやQwen, llm-jpのモデルを利用できるAPIのサービスを始めました。さっそく、設定して、Chat Completionを呼び出してみます。 www.sakura.ad.jp こちらのサイトに従っ…

ModernBERTのEmbedding APIサーバーをつくってみる。

ModernBERTのembeddingモデルをAPI経由で利用できるように挑戦してみました。ollamaでは現在対応していないようだすし、複雑なプログラムにはならないだろうとチャレンジしてみます。ついでなのでrerankも組み入れてみます。利用しやすいようにOpenAI互換を…

K2-Think-ggufをollamaとColabで試してみる。

K2-Think-ggufをmmngaさんによるGUFF化されたモデルで試してみます。小型モデルで優秀とのこと。最近すっかり小型モデルが優秀でなので、びっくりする楽しみは減りましたが・・・。ColabのL4を利用します。VRAM占有率は20323MiB / 23034MiB でした。 結果: …

VibeVoiceで日本語の音声生成をColabで試してみる。

Microsoft1がポッドキャストでの会話ような自然な会話音声を生成するモデルを公開しました。Colabを利用します。サンプルプログラムはT4用でVibeVoice-1.5Bですが、ColabのL4環境でより大きいVibeVoice-7B-Previewにもチャレンジしてみました。 英語の会話は…

gemma-3-270m-itをColabでfull_finetune #2

gemma-3-270m-itはコンパクトで、Googleさんからもfull_finetuneするコードが公開されています。〇〇風なチューニングではなく、QAセットで情報追加にチャレンジしてみます。ベースはGoogleさんが提供したColabノートを利用します。ColabのL4環境で実行しま…

gemma-3-270m-itを自作データでColabでファインチューニングしてみる。

Googleから公開されたGemma3 270M。FineTuringの方法も記載されています。そちらを利用してColabのL4環境で(雑な)自作データで学習をさせます。databricks-dolly-15kをローカルLLMでギャル語風に変換したデータです。 1h20mの学習時間でそれらしい出力が得…

Sarashina-embedding-v2-1Bで類似検索をColabで試してみる

「日本語に特化した指示を付与できるテキスト埋め込みモデル」として、Sarashina-embedding-v2-1Bが公開されました。さっそく、Retrival用途で簡単に実装してみてお試ししてみます。ColabのL4環境でお試ししました。 huggingface.co このモデルでは、queryだ…

メモ:いろんなRAGを試せるようにしてみる。

目先を変えて色んなRAG方式による回答を試したいので、RAGお試しを作ってみることにしました。汎用的ではありませんが、新しい論文がでたらGemini CLIあたりを使って、追加実装できるような程度に設計用のドキュメントを用意して実装してみました。basicなRA…

gemma3(270M)をollamaとColabでためしてみる。

小型LLMの中でも、Googleのgemma3の超小型のLLMモデルを試します。ColabのT4環境です。ollama公式のgemma3:270mとUnsloth: 270m-itをColabのT4環境で試してみます。 日本語のチューニングもされてないので、日本語怪しいかも・・・と思ったのですが、日本語…

OpenAI GPT-OSS 20Bをunslothを使ってColabでファインチューニングしてみる。

OpenAI GPT-OSS 20Bをunslothを使ってColabでファインチューニングに挑戦します。難しいチューニングは破綻の元なので、言葉じりを変える程度のチューニングを実施します。unslthの公式Colabを参考にして進めます。ColabのL4環境で実施します。 データセット…

簡単なFastAPIを利用したMCP RAG Serverを作成してみる。

Model Context Protocol (MCP)に準拠したRAG(Retrieval-Augmented Generation)機能を持つMCPサーバを機能を絞って簡単なものを作ってみます。ローカルで運用するのではなく、別サーバーで運用できるようにします。 ここのところお気に入りのjules君と作業…

Colabとollamaでlangextractをためしてみます。

GoogleがOSSとして発表したlangextract。非構造化なテキストから構造化情報を得ることができます。structured outputとかでうまく収得することもできるので、敢えて必要なのかな・・・と思いつつ試してみました。Colabで試してみます。LLMは「Qwen3-4B-Instr…

gpt-oss:20bをollamaとColabで試してみる。

OpenAIのSLMであるgpt-oss:20bをColabのL4環境で試してみます。VRAM占有率は15207MiB / 23034MiB です。モデルはollama公式で提供されているgpt-oss-20bを利用します。楽しみです。 今の時点では、このサイズ感でタスクに使いやすいのはQwenのモデルかも・・…

qwen3:30b-a3b-instruct-2507-q4_K_MをColabとollamaでためしてみる。

帰ってきたので、お試ししたかったqwen3:30b-a3b-instruct-2507-q4_K_Mを試してみます。モデルはollama公式に上がっているものを利用します。ColabのL4環境でためします。VRAM占有率は 18595MiB / 23034MiBでした。 期待通りの性能でq4_K_Mでもいい感じです…