DeepSeek-R1を利用したデータセットを使ってQwen/Qwen2.5-32B-InstructをチューニングしたモデルのGGUFを試します。蒸留流行りそうだと思ったら・・・さっそく性能向上したようですが・・・。Colab L4環境です。 Qwen2.5-32Bベースなので知識量や回答品質は…
phi-4のチューニングモデルである`mmnga/AXCXEPT-EZO-phi-4-v2_900-gguf`を試します。mmngaさんによるGUFF版です。AXCXEPTさんのgemma2のチューニングもいい感じでしたし、Xのポストを拝見して期待しつつ実行しました。Colab L4環境です。 huggingface.co 日…
ollama公式の32Bのモデルをためしてみます。ollamaにはQwenも Llamaも混在してuploadされています。今回試したのは、32B Qwen DeepSeek R1です。Colab L4環境でVRAM占有率は21721MiB / 23034MiBでした。 英語で考え日本語で考えてもらいました。 SYSTEM_PROM…
DeepSeek R1-Distillモデルが現れたので試してみます。Colab L4環境で試しましたが、 VRAM占有率は6357MiB / 23034MiB でしたので、T4でも動くのではないでしょうか。 8BでかつGGUFです。日本語の調整を行っていないモデルという前提ですが、微妙に中国語の…
unsloth/Qwen2.5-Coder-14B-Instruct-bnb-4bitを使って、過去に使ったデータセットを使って、ファインチューニングを行い日本語の語調を変えてみます。Qwen2.5と14Bの組み合わせで現実的にcolabで遊べるものが出来るのかのチェックが目的です。coderではなく…
Phi-4のBugをfixした!というXを見かけたので、追っていくとUnslothの記事に行きつきました。すると、ファインチューニングすぐできるよ!というColabまであるのでお試し。Colab T4で動くとありますが、L4環境で稼働させました。 データセットは丁寧に人力で…
Cohere、command-r7b。試してみます。7Bでどこまでできるんだろうという興味本位です。ColabのT4環境です。と、なんとなく、ollama公式のモデルを実行してみると、意外と実力あります。ollama公式のGGUFファイルなので日本語の調整は入ってないでしょう。そ…
Sky-TはQwQ-32B-Previewを使って作成したデータをベースにして450ドル未満という低コストで作成した推論モデルです。Llama-Factory によって学習させたとのこと。特にコーディング性能もよいということです。ColabのT4環境で実行します。VRAM占有率は21711Mi…
OLMo 2は学習プロセスが完全にオープンなモデルです。7Bと13Bがありますが、13Bをためしてみます。ollamaの公式に挙げられているモデルを使います。Colab T7環境で実施しました。VRAMの占有率は9709MiB / 15360MiBでした。 日本語の回答は気になる点はありま…
phi4はコーディング能力も高そうです。clineで使えたら良いですよね。そこで試してみます。 note.com ollamaを使えばすぐに試せます。が、素のままだとループが始まったりしていまいちです。Qwen2.5でも同じ傾向があったので、先人のトライを参考にします。m…
少し不在にしていたら、Phi4がMITライセンスで公開されていました。ColabのL4環境で試してみます。phi4はollama公式に上がっているものを利用します。VRAMの占有率は 11061MiB / 23034MiBでした。 日本語の調整をしていないollama公式にuploadされているモデ…
Malum-230は手作りの日本語の事前学習・事後学習両用の論理推論データセットです。素晴らしいデータセットなので、ファインチューニングを手軽にできるLLaMA-Factoryのお勉強の題材として使ってみました。有難いです。 人手で作成した、事前学習・事後学習両…
話題のGenesisをwsl2で動かしてみます。少しだけはまっちゃったのでメモしておきます。先人たちに感謝。 github.com 環境 wsl2(windows11): Distributor ID: UbuntuDescription: Ubuntu 22.04.5 LTSRelease: 22.04Codename: jammy 手順 とりあえず、仮想環境…
HuggingFaceから発表されたAgentを作成するツールであるSmolagents。1000行くらいのcodeで機能を提供しているとのこと。Colabで試せないかなと思ったらLiteLLMModelを利用できるとあるので、試してみました。 huggingface.co github.com ColabのL4環境でモデ…
IBMが公開しているモデルgraniteがいつの間にか3.1になっていました。そのまま試しても面白くないので、granite-3.1-2b-instructのファインチューニングをLoRAで実施してみます。丁寧にcookbookとして、基本的なコードが公開されています。ありがたく利用し…
tokyotech-llm-Llama-3.1-Swallow-70B-Instruct-v0.3が公開されてましたので楽しみにお試しします。GGUFファイルはmmngaさん作成のものを感謝して利用します。Colab A100環境でVRAM占有率は39413MiB / 40960MiBでした。 結果。 日本語MT-Benchがgpt-3.5-turb…
tokyotech-llm-Llama-3.1-Swallow-8B-Instruct-v0.3-ggufを試してみます。GGUFは、mmngaさんが作成されたものを利用しました。楽しみです。ColabのL4環境です。VRAM占有率は 6357MiB / 23034MiBでした。 結果;日本語は自然です。知識量は8B相応だな、という…
ローカルLLMでデータ加工したいということで、ollamaのstructured outputsをもう少し使ってみるメモです。多少複雑な構造でも使えそうなのか・・・?を試してみます。これまでのトライでは、日本語の場合、JSONのフォーマットが不正なエラーが生じるケースが…
falcon3を試してみます。ollama公式の7Bだと日本語は辛そうだったので、10b-instruct-q8_0で試してみます。ColabのL4環境で実行。 VRAMの占有率は11919MiB / 23034MiBでした。 日本語の性能は高くありませんでした。計算性能は高そうでしたので、日本語の学…
LLMでマリオを操作できるのか。Gemini 2.0 Flash Experimentalだとどうなのだろうかと、画面を見ながら質問してみた。状況把握が出来ているようだし、組み入れたらクリアできるかも。回答も速い。クリボーと接触してはダメだという理解と位置関係も取れてい…
SB Intuitionsによるsarashinaの1BモデルのInstruction Tuningしたモデルを試します。1Bです。ollama使ってColab T4環境で動かしたときにはVRAM1909MiB / 15360MiBの占有率です。結構、良いと評判なので試してみます。 結果: 自然な日本語を生成します。Ara…
がっつりプログラムをする人のいない環境のぼっち日曜プログラマ。初心者向け入門書くらいは読んだことはあるけど、ほぼ我流。他人と共有しないプログラムであれば自由でいいし動けばOK。ここ数年動かしっぱなしのコードを改修しようとしたらドツボにハマる…
ollamaでstructured outputsに対応したので試します。すでに良記事が存在するので一読して、気になった出力の安定性とその時のエラー処理の味見をしました。ollamaでローカルLLMで大量のテキストを処理したい。データセットをちょっと加工したり、論文からデ…
OpenAIの発表が続く中、Llama-3.3-70Bが公開されていました。さっそく、mmngaさんがGGUFを作成されていましたので、Colabで試します。Colab L4環境です。 70Bモデルもすっかり高い性能になってきましたが、Llama-3.3-70Bもその高さを感じさせます。ただし、l…
Sakana.aiが発表したあらたな技術CycleQD。Googlefan256さんは早速、実証実装をされていたので、Colabで動かしてみます。Colab T4のハイメモリ環境です。ハイメモリじゃないとQwen2.5-0.5Bベースでもダメでした。とりあえず、動くかどうかを試しただけなので…
NVIDIA製Llama-3.1-Nemotron-70BのGGUFをmmngaさんがGGUFとしていらっしゃったので試します。ColabのL4環境です。A100が引き当てられず、予測時間は結構かかります。推論過程を提示しろというSYSTEM PROMPTを用いました。 結果は、さすがに良好です。推論過…
QwQ-32B-Previewはo1的な推論モデルを組み込んだ実験的なモデルです。中国語や英語が生成途中で混じったりすることがありました。その点をマージで調整されたEZO-QwQ-32B-PreviewのGGUFバージョンをお試ししてみます。ColabのL4環境です。 試した範囲では、…
QwQ-32B-Previewを試します。公式のGGUFではなく、bartowskiさん作成のGGUFを利用させていただきました。公式を試された方は比較されるといいかもしれません。微妙に日本語がおかしかったり、英語になったりする部分は最適化を施すと変わってくるように思い…
コーディングとLLMの相性は良いようで、道具として使えるレベルに来ているようです。ChatGPTやCopilot等々で関数作成やエラー解決にお世話になることもしばしば。VS Code+Clineで楽できそうだったのでチャレンジしました。Claudeを使いたいですけれども、無…
Marco-o1 は、CoT、MCTS、リフレクションを利用した推論を組み入れたモデルです。ollamaで利用できるようになったので試してみました。日本語の出力がスムースなかったので、オリジナルの中国語のプロンプトではなく、システムプロンプトを英語で記述して日…