2026-01-01から1年間の記事一覧
ChromeOSって、いつまでサポートされるのかな、と不安に思いつつも、最近、USBキットを発売らしいので、まだしばらくは安心。ということでChromeOSを古いPCに入れました。 k-tai.watch.impress.co.jp イメージのダウンロードが若干分かり難かった。こちらの…
方眼紙Excel(紙/神Excel)」からのデータ抽出は、その使い方の多様さゆえに、単純な表形式変換では困難を極めます。しかし、最近ではDoclingなどにより、生成AIと親和性の高い抽出が現実的になってきました。 セルの結合を多用したシートは特に難易度が高い…
Doclingは各種ドキュメントからの生成AI向け情報抽出が可能です。IBMのチームが開発しています。現在も開発は活発です。PDF, DOCX, PPTX, XLSXなど多様なフォーマットに対応している優れものです。このDoclingでお好みのMarkdownの形式にできるようにしてみ…
簡単なプレゼンの場合、手元のMarkdownのメモをそのまま投影すればいいことも多いですよね。そこで、Sunwood-ai-labs Makiさんが作成されたMarp Editable UI にLLMによる自動生成支援機能を追加し、数式、Mermaid図も対応させることにチャレンジしました。ざ…
PyxelはPython 向けのレトロゲームエンジンです。道具もそろっていてPythonを利用したゲームが作成できます。ブラウザ上でも動作する優れものです。このPyxelにAgent Skillsがあったら、もっと気軽にゲームが出来るんじゃないでしょうか。Gemini CLIを使い、…
NDLOCR-Liteは軽量な日本語OCRです。colabで試してみたらいい感じでした。REST APIとして実装してみました。APIができたので、いろんなプログラムから呼べるので便利です。 bwgift.hatenadiary.jp `/v1/ocr` で同期処理に加え、非同期処理もサポート。負荷テ…
NDLOCRは国立国会図書館がCC BY 4.0ライセンスで公開したOCRです。CPUでも動作する軽量なモデル。有難くお試しします。モデルの再学習及びカスタマイズについての開発者向け情報もあって、今後バリエーションも増えるのかもしれません。 lab.ndl.go.jp githu…
LibreChatでCode Interpreterをローカルで動作をさせたくてお試しましたが、可能性ありそうだなというレベルでした。真面目に利用しようとすると、ファイルをコンテナへのファイルアップロード機能など不足している機能など全然だめです。 bwgift.hatenadiar…
Qwen3, GPT-OSSの日本語チューンナップモデルであるSwallowが公開されました。QwenもGPT-OSSといったベースも良い出来なので期待しますよね。Colab L4環境で動作させてみました。 zenn.dev huggingface.co Colabでどうやって動かそうかと考えましたがvLLMを…
日本語APIで軽量さと精度のバランスが良く、prefix含み8k tokensを入力できるruri-v3は、embeddingモデルととても便利に使っています。modernBERTベースでSentencepiceをトークナイザーとして用いています。大変便利なので、embedding APIサーバーを作ってみ…
picoclawをollamaで動かしたくなったので、docker composeで出来るようにしました。大したこともないですが、メモ。追加部分:- ollamaを利用できるようにした。GPUなしの場合は当該部分削除してください。 - timezoneをホストと合わせるように`/etc/localti…
PicoClawはOpenClawのGo実装版でコンパクトです。ローカルLLMやOpenAI互換の他のプロバイダで利用するとうまくいかなかったので、メモを書きました。答えは、vLLMで使おう・・・これだけです。もともと組み込み以外のプロバイダはOpenRouterへの設定に流れま…
Deep Researchのような調査ツールをローカルLLMと組み合わせてみたら、どこまで使えるのでしょう・・・と思って、作ってみました。この手のレポジトリはすでにあると思います。 狙い 1. ローカルLLMの軽量級であるollamaとgemma3:4b-it-qatの組み合わせでど…
固有表現抽出(NER)タスクを続けていきます。gpt-5.xやgemini xにやらせればいいといわれますが、その通りです。一方で、ローカルLLMモデルを利用してLoRAで学習させても思いの他、精度を上げるのは大変でした。 という訳で、modernBERTという優秀でお手軽なe…
BERTやModernBERT(Ruri-v3など)のようなTransformerベースのモデルは、内部的に Self-Attention メカニズムを持っており、文全体のコンテキストを考慮して各トークンのベクトルを決定しています。そのため文脈を考慮して、NERでは地名(LOC)か企業名(ORG…
テキストで指示した音声でしゃべってくれるQwen3-TTSモデル(Qwen3-TTS-12Hz-1.7B-VoiceDesign)を試してみました。Colab T4環境でVRAM占有率は8.4 / 15.0 GBでした。Colabのノートブックは最後にリンクします。 huggingface.co instructのテキストだけで色ん…
translategemmaはGoogleが公開した翻訳モデルです。Gemma 3ベースでオープンなモデルで気軽に使えます。Googleさんありがとうございます。早速、Colab L4環境でollama公式にあるtranslategemma:4bで試してみました(VRAM 利用率:3.8GB/22.5GB)。 4bのモデル…
Google Julesは、Google が開発した “自律型AIコーディングエージェント” で、GitHub リポジトリを読み取り、計画を立て、コードを書き、テストし、最終的に PRまで自動で作成する次世代の開発支援ツールです。GooleでもAntigravityやGemini CLIと比較して目…
Colabを使ってACE(Agentic Context Engineering)という考え方を試してみました。コンテキストエンジニアリングを考える良い機会になりました。また、そもそも情報をどう蓄積して、検索し引き出して投入するのか、を考える良いきっかけとなりました。 bwgif…
はじめに Model-First Reasoning(MFR)は、推論に先立って問題の構造を明示的にモデル化することをエージェントに要求することで、ハルシネーションを抑制し信頼性の高いAIシステムを構築するための基礎的なコンポーネントとなるアプローチです。推論(生成)…