地平線まで行ってくる。

記録あるいは忘備録。時には検討事項。

Colaboratory

command-r7bをollamaとColabで試す。

Cohere、command-r7b。試してみます。7Bでどこまでできるんだろうという興味本位です。ColabのT4環境です。と、なんとなく、ollama公式のモデルを実行してみると、意外と実力あります。ollama公式のGGUFファイルなので日本語の調整は入ってないでしょう。そ…

sky-t1-32B-preview-clineをollamaとColabでためす。

Sky-TはQwQ-32B-Previewを使って作成したデータをベースにして450ドル未満という低コストで作成した推論モデルです。Llama-Factory によって学習させたとのこと。特にコーディング性能もよいということです。ColabのT4環境で実行します。VRAM占有率は21711Mi…

OLMo2をollamaとcolabでためしてみる。

OLMo 2は学習プロセスが完全にオープンなモデルです。7Bと13Bがありますが、13Bをためしてみます。ollamaの公式に挙げられているモデルを使います。Colab T7環境で実施しました。VRAMの占有率は9709MiB / 15360MiBでした。 日本語の回答は気になる点はありま…

Phi4をOllamaとColabでためしてみる。

少し不在にしていたら、Phi4がMITライセンスで公開されていました。ColabのL4環境で試してみます。phi4はollama公式に上がっているものを利用します。VRAMの占有率は 11061MiB / 23034MiBでした。 日本語の調整をしていないollama公式にuploadされているモデ…

Manual-Dataset-Creation-ProjectによるデータセットMalum-230を使ってLLaMA-Factory CLiによるQLoRAファインチューニングをColabでためしてみる。

Malum-230は手作りの日本語の事前学習・事後学習両用の論理推論データセットです。素晴らしいデータセットなので、ファインチューニングを手軽にできるLLaMA-Factoryのお勉強の題材として使ってみました。有難いです。 人手で作成した、事前学習・事後学習両…

smolagentsのguickdemoをollamaとcolabでためしてみる。

HuggingFaceから発表されたAgentを作成するツールであるSmolagents。1000行くらいのcodeで機能を提供しているとのこと。Colabで試せないかなと思ったらLiteLLMModelを利用できるとあるので、試してみました。 huggingface.co github.com ColabのL4環境でモデ…

メモ:granite3.1-denseのFineturing(LoRA)をColabでやってみる。

IBMが公開しているモデルgraniteがいつの間にか3.1になっていました。そのまま試しても面白くないので、granite-3.1-2b-instructのファインチューニングをLoRAで実施してみます。丁寧にcookbookとして、基本的なコードが公開されています。ありがたく利用し…

tokyotech-llm-Llama-3.1-Swallow-70B-Instruct-v0.3-gguf

tokyotech-llm-Llama-3.1-Swallow-70B-Instruct-v0.3が公開されてましたので楽しみにお試しします。GGUFファイルはmmngaさん作成のものを感謝して利用します。Colab A100環境でVRAM占有率は39413MiB / 40960MiBでした。 結果。 日本語MT-Benchがgpt-3.5-turb…

tokyotech-llm-Llama-3.1-Swallow-8B-Instruct-v0.3-ggufをollamaとColabでためしてみる。

tokyotech-llm-Llama-3.1-Swallow-8B-Instruct-v0.3-ggufを試してみます。GGUFは、mmngaさんが作成されたものを利用しました。楽しみです。ColabのL4環境です。VRAM占有率は 6357MiB / 23034MiBでした。 結果;日本語は自然です。知識量は8B相応だな、という…

falcon3:10b-instruct-q8_0をColabとollamaでためしてみる

falcon3を試してみます。ollama公式の7Bだと日本語は辛そうだったので、10b-instruct-q8_0で試してみます。ColabのL4環境で実行。 VRAMの占有率は11919MiB / 23034MiBでした。 日本語の性能は高くありませんでした。計算性能は高そうでしたので、日本語の学…

mmnga/sarashina2.1-1b-sft-ggufをColabとOllamaでためしてみる

SB Intuitionsによるsarashinaの1BモデルのInstruction Tuningしたモデルを試します。1Bです。ollama使ってColab T4環境で動かしたときにはVRAM1909MiB / 15360MiBの占有率です。結構、良いと評判なので試してみます。 結果: 自然な日本語を生成します。Ara…

Llama-3.3-70B-Instruct-ggufをollamaとColabでためしてみる

OpenAIの発表が続く中、Llama-3.3-70Bが公開されていました。さっそく、mmngaさんがGGUFを作成されていましたので、Colabで試します。Colab L4環境です。 70Bモデルもすっかり高い性能になってきましたが、Llama-3.3-70Bもその高さを感じさせます。ただし、l…

メモ:CycleQDをColabでためしてみる。

Sakana.aiが発表したあらたな技術CycleQD。Googlefan256さんは早速、実証実装をされていたので、Colabで動かしてみます。Colab T4のハイメモリ環境です。ハイメモリじゃないとQwen2.5-0.5Bベースでもダメでした。とりあえず、動くかどうかを試しただけなので…

mmnga/Llama-3.1-Nemotron-70B-Instruct-HF-ggufをColabとollamaでためしてみる。

NVIDIA製Llama-3.1-Nemotron-70BのGGUFをmmngaさんがGGUFとしていらっしゃったので試します。ColabのL4環境です。A100が引き当てられず、予測時間は結構かかります。推論過程を提示しろというSYSTEM PROMPTを用いました。 結果は、さすがに良好です。推論過…

EZO-QwQ-32B-Preview-GGUFをollamaとColabで試す。

QwQ-32B-Previewはo1的な推論モデルを組み込んだ実験的なモデルです。中国語や英語が生成途中で混じったりすることがありました。その点をマージで調整されたEZO-QwQ-32B-PreviewのGGUFバージョンをお試ししてみます。ColabのL4環境です。 試した範囲では、…

QwQ-32B-Preview-GGUFをollamaとColabでためす

QwQ-32B-Previewを試します。公式のGGUFではなく、bartowskiさん作成のGGUFを利用させていただきました。公式を試された方は比較されるといいかもしれません。微妙に日本語がおかしかったり、英語になったりする部分は最適化を施すと変わってくるように思い…

marco-o1をollamaとcolabでためしてみる。

Marco-o1 は、CoT、MCTS、リフレクションを利用した推論を組み入れたモデルです。ollamaで利用できるようになったので試してみました。日本語の出力がスムースなかったので、オリジナルの中国語のプロンプトではなく、システムプロンプトを英語で記述して日…

grapevine-AI/Athene-V2-Chat-GGUFをollamaとcolabでためす。

grapevine-AI/Athene-V2-ChatをColab L4環境でお試しします。試す前から無謀なのは覚悟です。コーヒーを用意してチャレンジです。ollamaを利用すると、それでもなんとか動くのは凄いです。もちろん、実用レベルの生成速度は得られません。やはり、生成の質は…

Qwen2.5-3B-Instruct(128K)をColabで利用してみる。

Qwen2.5-3B-128KのGGUFモデルを作成されている方がいらっしゃったので、Colab T4環境で試してみました。有難く試してみます。なんやかやで、長文の投入は出来るモデルは心強いですよね。長文の解析で恩恵をあずかるのは、コード解析や論理性のないストーリー…

Colab+ollamaでQwen2.5-coderを使ってcode cockerを試す。

コード生成モデルがどんどん進化しているので、簡単にお試しします。そこで、自動でコード生成させるサンプルとして、Karaageさんのcode cokerの記事を思い出しました。有難く利用させていただきます。今回は、githubにあったもともとのnotebookのコードをベ…

Athene-V2-ChatをOllama+Colabでためす。

Athene-V2-ChatをColab A100環境で試してみます。Qwen-2.5-72Bをベースにファインチューニングしたモデルとのこと。もともとのQwenの性能も高いので期待できます。VRAM占有率は39829MiB / 40960MiB。GGUFはImstudio-communityのものをありがたく使います。話…

llama-3-1-swallow-8b-instruct-v0.2をColabでためしてみる。

llama-3-1-swallow-8b-instruct-v0.2が公表されていましたので、試してみます。コツコツと積み重ねて発表されていて(文字通り)陰ながら応援しています。ColabT4環境でテストを行いました。 生成された文章は、簡潔で饒舌な方ではありません。長文生成は複…

ローカルLLMでタスクに応じたtool選択をJSON出力にしてみる。

我がPCでも動作できる軽量なLLMを使って遊んでいると、質問ごとにタスク選定の機能が欲しくなります。簡単なタスク分解が軽量モデルでできると(体感)応答速度の向上も期待できるかもしれません。もちろん、それなりのLLMモデルとLangchainを使うと簡単に実…

ollamaでllama3.2-visionをためしてみる。

llama3.2-vision:11bを試してみます。ColabのL4環境です。動作時、VRAM占有割合は11865MiB / 23034MiBでした。このモデルでは、分かりやすい風景や人物の状況は読みとれている回答が生成されました。日本語で質問も英語が混在することありません。意地悪な質…

メモ:ArXivで最近のトレンドをNotebookLMで眺める

先日、副産物で得られた論文のアブスト集をNotebookLMに入れてみたら快適でした。もともとデータセット作成のテストだった*1のですが、使えそうなのでそこだけ切り出します。今回の手順は、 ArXivから任意のキーワードで検索しアブストを入手する。 50000文…

grapevine-AI/aya-expanse-8b-ggufをcolabとollamaでおためし。

imatrix datasetを使って日本語能力を重視したGGUF変換バージョンのaya-expanse-8b-ggufを試してみます。aya-expanse-8bは、8Bレベルの多言語対応モデルとして高い性能を持ちます。極簡単なテストでの印象では、Q4_K_Mでの量子化を感じさせないモデルでロー…

aya-expanse 8Bと32Bをollamaとcolabでためしてみる。

aya-expanse 8Bと32Bをollamaでためします。評判もよいので期待しつつ。 このモデルはわりと饒舌なモデルで比較的長めの文章を生成していました。ただ、まとめに関しては、極端に短くなるものもあり、指示次第なのかもしれません。8Bでも自然な文章を生成し…

ColabでArXiv論文データを加工してNotebookLMで使ってみる。

ローカルLLMの性能が上がってくると、今まで課金が怖くてできなかったこともやっちゃえと思い切ってできるようになってきました。そこで、ある分野の論文の概要をArXivを利用して入手し、RAG用データセットへの加工もトライしてみました。 bwgift.hatenadiar…

CohereForAI/aya-expanse-8bをColabで試す。

aya-expanse-8bを4bit量子化してColabT4環境で試しました。CC-BY-NC 4.0 Licenseです。量子化しても日本語も大きな問題はありませんでしたが、日本の知識は限度がありそうです。計算もそつなくこなし、さすがCohere社のモデルです。進歩するOSSモデルの中で…

IBMのgranite3のMoEをcolabとollamaで試してみる。

colab(T4)上でollamaを用いて、IBMのgranite3のMoEバージョンを試します。オリジナルそのままのモデルではありませんが、応答速度の感触も見るためにセルの実行速度レベルで雑に比較しました。denseより結構早いんじゃないかと期待したのですが、ollamaでは…