地平線まで行ってくる。

記録あるいは忘備録。時には検討事項。

2025-04-01から1ヶ月間の記事一覧

qwen3:32bとqwen3:30b-a3bをollamaとColabで試してみる。

Qwen3が発表されました。公開されたモデルもありますのでColab L4環境で試してみます。VRAMの占有率は、Qwen3:32b: 20055MiB / 23034MiB、Qwen3:30b-a3b: 19209MiB / 23034MiBでした。 qwenlm.github.io 結果 推論ありモードでは、ざっくりQwen3:32bに対して…

ruri-v3-pt-310m/ruri-v3-310mでNERをやってみる

NER(固有名詞抽出)に再び挑戦します。ruri-v3-pt-310m/ruri-v3-310mをStockmark作WikipediaのNER向けdatasetを使って学習させてみます。このモデルでは分かち書きが不要です。しかしながら、学習済みSentencePieceのtokenizerによるトークンとNERの文字単…

CodeSearch-ModernBERT-Crow-PlusをColabで試してみる。

多言語コード検索タスクのSentence Transformerモデルである、CodeSearch-ModernBERT-Crow-Plusを試してみます。 huggingface.co 類似コードのデータセットを使ってテストしました。 dataset = [ { "code": """def add(a, b): return a + b""", "comment": "…

llm-jp-modernbert-baseとruri-v3-pt, ModernBERT-jaでNERの比較をColabでしてみる

LLM-jpよりllm-jp-modernbertが公開されてました。NERで試してみます。ModernBERT-jaと同じようにstockmarks社のwikipedia_nerデータを利用します。厳密な比較ではありませんが、ModernBERT-ja-310m, ruri-v3-pt-310mがF1スコアで0.2少しよい結果(傾向)が…

日曜プログラム的Vibe Codingらしきものを試してみる。

これまでClineやCopilotなどを使って、LLMを使ったコーディングを試していました。そこで、日曜プログラム的立場で試してみようと、streamlitを使ったアプリケーションを作ってみたので、メモします。かかった時間は、動画見ながら4時間くらい。Debugや試行…

gemma3:27b-it-qatをollamaとcolabで試してみる。

ollama公式モデルにgemma3:27b-it-qatが加わりました。gemma3は、日本語も強いので早速試します。Colab L4環境で試します。VRAMの占有率は18507MiB / 23034MiBでした。このモデルは「Quantization aware trained models (QAT)The quantization aware trained…

mmnga/ABEJA-QwQ32b-Reasoning-Japanese-v1.0-ggufをollamaとColabとでためしてみる。

GPT-4oを上回る性能という「ABEJA-QwQ32b-Reasoning-Japanese-v1.0」のGGUF版を試してみます。GUFFはmmngaさん作成のものを利用します。ColabはL4環境でVRAM占有率は21591MiB / 23034MiB でした。「強制的に思考過程を経るために <think>\n の後から出力を開始して</think>…

microsoft/bitnet-b1.58-2B-4TをColabでためしてみる。

Microsoftは、BitNetを続けていたんだとびっくりしました。モデルが公開されていましたので、ColabのNo GPU環境で挑戦しました。懐かしい感じもする生成状況でした。そもそも2Bなので過大な期待はできませんが、日本語も学習しているようでした。実用になる…

mmnga/EZO2.5-gemma-3-12b-it-Preview-gguf

AXCXEPTさんがのEZOモデルは感じよく性能がアップしています。今回はGemma3-12bベースのモデルを公開されたものを、mmngaさんがGGUF化されたモデルをお試しします。ColabのL4環境で試しました。VRAM占有率は9301MiB / 23034MiBでした。T4環境でも十分テスト…

ruri-v3-310mをColabで試してみる。

Ruriで8k tokensを処理できるRuri-v3が出たので、楽しみに基本的なところを試します。とりあえず、Colab T4環境で、素振りをやってみました。さくっと利用できそうな感触です。明日から本格的に使ってみます。 huggingface.co まずは、基本的なベクトル計算…

Gemma3をColabでファインチューニングしてみる。

UnslothによるColab notebookをベースに以前作った日本語gal語データセットでファインチューニングしてみます。27BモデルをColabでファインチューニングできるのか、試してみたかったので、4bit量子化27Bモデル‘unsloth/gemma-3-27b-it-unsloth-bnb-4bit‘を…

mmnga/cogito-v1-preview-qwen-32B-ggufをollamaとColabで試してみる。

独自の「ハイブリッド推論」と「Iterated Distillation and Amplification (IDA)」で構築したcogito-v1-preview-qwen-32Bをmmngaさんによりgguf化したモデル(K_M)をColab L4環境で試してみます。標準モードと推論モードがあり、切り替えて使えるモデルです…

ColabでDream(Dream-v0-Instruct-7B)を試してみる。

7Bのdiffusion large language modelをcolabで試します。ColabのL4版で 18379MiB / 23034MiB のVRAM占有率でした。Githubに掲載されていたコードを利用しました。 生成文章もしっかりできているようです。内容もいい意味で面白かったです。計算もしっかりで…