地平線まで行ってくる。

記録あるいは忘備録。時には検討事項。

2024-01-01から1年間の記事一覧

marco-o1をollamaとcolabでためしてみる。

Marco-o1 は、CoT、MCTS、リフレクションを利用した推論を組み入れたモデルです。ollamaで利用できるようになったので試してみました。日本語の出力がスムースなかったので、オリジナルの中国語のプロンプトではなく、システムプロンプトを英語で記述して日…

grapevine-AI/Athene-V2-Chat-GGUFをollamaとcolabでためす。

grapevine-AI/Athene-V2-ChatをColab L4環境でお試しします。試す前から無謀なのは覚悟です。コーヒーを用意してチャレンジです。ollamaを利用すると、それでもなんとか動くのは凄いです。もちろん、実用レベルの生成速度は得られません。やはり、生成の質は…

Qwen2.5-3B-Instruct(128K)をColabで利用してみる。

Qwen2.5-3B-128KのGGUFモデルを作成されている方がいらっしゃったので、Colab T4環境で試してみました。有難く試してみます。なんやかやで、長文の投入は出来るモデルは心強いですよね。長文の解析で恩恵をあずかるのは、コード解析や論理性のないストーリー…

Colab+ollamaでQwen2.5-coderを使ってcode cockerを試す。

コード生成モデルがどんどん進化しているので、簡単にお試しします。そこで、自動でコード生成させるサンプルとして、Karaageさんのcode cokerの記事を思い出しました。有難く利用させていただきます。今回は、githubにあったもともとのnotebookのコードをベ…

Athene-V2-ChatをOllama+Colabでためす。

Athene-V2-ChatをColab A100環境で試してみます。Qwen-2.5-72Bをベースにファインチューニングしたモデルとのこと。もともとのQwenの性能も高いので期待できます。VRAM占有率は39829MiB / 40960MiB。GGUFはImstudio-communityのものをありがたく使います。話…

llama-3-1-swallow-8b-instruct-v0.2をColabでためしてみる。

llama-3-1-swallow-8b-instruct-v0.2が公表されていましたので、試してみます。コツコツと積み重ねて発表されていて(文字通り)陰ながら応援しています。ColabT4環境でテストを行いました。 生成された文章は、簡潔で饒舌な方ではありません。長文生成は複…

ローカルLLMでタスクに応じたtool選択をJSON出力にしてみる。

我がPCでも動作できる軽量なLLMを使って遊んでいると、質問ごとにタスク選定の機能が欲しくなります。簡単なタスク分解が軽量モデルでできると(体感)応答速度の向上も期待できるかもしれません。もちろん、それなりのLLMモデルとLangchainを使うと簡単に実…

RSSからPodcastを作成してみる。

Web更新の状況をざっと見るために今でもRSSを活用しています。更新の有無を確認してから本文を参照できます。RSS対応サイトの方が私は頻繁に訪問する傾向があります。もしくは、RSSフィードを生成しておけば、Feedyのようなアプリで一元的にチェックできて大…

ollamaでllama3.2-visionをためしてみる。

llama3.2-vision:11bを試してみます。ColabのL4環境です。動作時、VRAM占有割合は11865MiB / 23034MiBでした。このモデルでは、分かりやすい風景や人物の状況は読みとれている回答が生成されました。日本語で質問も英語が混在することありません。意地悪な質…

ArXivからPodcastを生成してみる。

ArXivで論文を検索して、ざっくりアブストラクトから論文の動向の情報を得て、NotebookLMに投入するところまで作りました。Podcast機能が面白かったので、NotebookLMに投入して調整しなくても、自分の好きな感じでPodcastに出来るようにしました。もちろん、…

メモ:ArXivで最近のトレンドをNotebookLMで眺める

先日、副産物で得られた論文のアブスト集をNotebookLMに入れてみたら快適でした。もともとデータセット作成のテストだった*1のですが、使えそうなのでそこだけ切り出します。今回の手順は、 ArXivから任意のキーワードで検索しアブストを入手する。 50000文…

grapevine-AI/aya-expanse-8b-ggufをcolabとollamaでおためし。

imatrix datasetを使って日本語能力を重視したGGUF変換バージョンのaya-expanse-8b-ggufを試してみます。aya-expanse-8bは、8Bレベルの多言語対応モデルとして高い性能を持ちます。極簡単なテストでの印象では、Q4_K_Mでの量子化を感じさせないモデルでロー…

aya-expanse 8Bと32Bをollamaとcolabでためしてみる。

aya-expanse 8Bと32Bをollamaでためします。評判もよいので期待しつつ。 このモデルはわりと饒舌なモデルで比較的長めの文章を生成していました。ただ、まとめに関しては、極端に短くなるものもあり、指示次第なのかもしれません。8Bでも自然な文章を生成し…

ColabでArXiv論文データを加工してNotebookLMで使ってみる。

ローカルLLMの性能が上がってくると、今まで課金が怖くてできなかったこともやっちゃえと思い切ってできるようになってきました。そこで、ある分野の論文の概要をArXivを利用して入手し、RAG用データセットへの加工もトライしてみました。 bwgift.hatenadiar…

CohereForAI/aya-expanse-8bをColabで試す。

aya-expanse-8bを4bit量子化してColabT4環境で試しました。CC-BY-NC 4.0 Licenseです。量子化しても日本語も大きな問題はありませんでしたが、日本の知識は限度がありそうです。計算もそつなくこなし、さすがCohere社のモデルです。進歩するOSSモデルの中で…

IBMのgranite3のMoEをcolabとollamaで試してみる。

colab(T4)上でollamaを用いて、IBMのgranite3のMoEバージョンを試します。オリジナルそのままのモデルではありませんが、応答速度の感触も見るためにセルの実行速度レベルで雑に比較しました。denseより結構早いんじゃないかと期待したのですが、ollamaでは…

IBMのgranite3-dense(2B/8B)ををColabでためしてみる

IBM発のLLMであるgranite-3.0が更新されていたので、ためしてみます。RAGやコード生成などのタスク向けとのこと。多言語に対応しているようで日本語も入っていました。さっそく試します。当初はモデルカードに書いてあったサンプルで動作させて試していたの…

babyagi-2oをcolabでollama(qwen2.5-code)と組み合わせてためしてみる。

ChatGPTが現れた当初、自立型エージェントとしてBabyAGIはインパクトがありました。シンプルな自己構築型エージェントとして「BabyAGI 2o - the simplest self-building autonomous agent.」が公開されていました。簡単なコードで実現されていて勉強にもなり…

ColabでBitNetをためしてみる。

1-bit LLMsで話題になったBitNet。microsoftがフレームワークを公開したので、お試しします。話題になっていますが、自分で試すの精神で、ColabのCPUのみで動かしますが、最小構成だとRAMが足りなかったので、RAM増量(51.0 GB)モードとしました。 ライブラリ…

ColabでBitNetをためしてみる。

1-bit LLMsで話題になったBitNet。microsoftがフレームワークを公開したので、お試しします。話題になっていますが、自分で試すの精神で、ColabのCPUのみで動かしますが、最小構成だとRAMが足りなかったので、RAM増量(51.0 GB)モードとしました。 ライブラリ…

Llama-3.1-Nemotron-70B-Instruct-HF-GGUFをColabでためしてみる。

NVIDIAから発表されたLlama-3.1-Nemotron-70B-Instruct-HFをGGUFモデル(Q4_K_M)でお試しします。Colab A100環境( 39521MiB / 40960MiB)です。さすがの70Bです。受け答えは良好です。A100でも、このサイズです。回答まで少し時間がかかりました。 build.nvi…

fast-whisperでlarge-v3-turboを、のメモ

faster-whisperは、CTranslate2を使った高速な文字おこしが可能です。whisper-large-v3-turboを使えないかと思って、挑戦したのでメモ。 変換されたモデルをhuginggaceから有難くダウンロードして指定するだけです。Colabで試したところ、実行速度は、open-w…

gemma-2-9b-it-SimPO-GGUFをColabでためしてみる。

gemma-2-9b-it-SimPO-GGUF(Q5_K_M)を試してみます。Gemma 2 9BのSimPO強化版モデルとのことです。Llama3-Instruct-8B-SimPO-v0.2は、Claude 3 Opusを凌ぐ性能*1もあるというといいます。評価はgemma-2-9b-it*2も高性能です。GGUFはimatrix datasetで日本語を…

DifyをlocalなWebReaderと組み合わせてみるメモ。

Dify Community Editionはセルフホスティングが可能で個人でも楽しく利用できます。とても有難いです。一時期、Difyで日本語文書のRAG関連が工夫してもうまくいかなくて悩んでいましたが、どんどんバージョンが上がって良くなってきているように感じています…

whisper-webをdockerで動かす。

Whisperをブラウザ上で使えるwhisper-webをお試ししたくて、dockerで構築しました。利用するときには、デフォルトが日本語じゃないし、設定が分かりにくいかもしれません。現在のところ、whisper-large v3 turboを利用するためにはWebGPU版の実験ブランチ版…

gemma-2-jpn-translate:2b-instruct-q8_0をColabでためしてみる

gemma-2-2b-jpn-itを翻訳タスクにチューニングしたローカルモデルが公開されていましたので、早速使ってみます。— 七誌 (@7shi)さんの手でollamaのmodelにアップロードされているいものがありました。感謝しつつollamaで利用します。軽量ローカルLLMで気軽に…

Colabでデータセットを作成してファインチューニングしてみる。#02

論文からローカルLLMを使ってデータセット作成をちまちまと続けています。ローカルLLMだと平気でダブルクォートが欠落したたりするのは良い方で、予想もしない出力をしてくれやがります。前処理・後処理は勉強になります。論文や技術文書が本命なのですが、…

Llama-3.1-Swallow-8B-Instruct-v0.1-Instruct-v0.1をColabでためす。

Llama-3.1-Swallow-8Bが公開されてたので試しました。楽しみです。 swallow-llm.github.io すっきりとした冗長の感じもない文章を生成しました。日本で二番目に高い山は不正解でしたが、計算は正解です。指示の効き具合も改善されたとのことでしたので、lang…

mistral-nemo-japanese-instruct-2408をColabでためす。

Cyveragent社のMistral-Nemo-Japanese-Instruct-2408が、なかなか強いということなので試してみました。ollamaで使えるようにLucas(@LucasChatGPT)さんが変換されていたので、ありがたく使います。環境はColab L4環境です。VRAMは 13935MiB / 23034MiBの占有…

Colabでgemma2-2b-jpnをArXivから作ったデータセットでファインチューニングしてみる。

gemma2-2b-jpn、日本語軽量モデルが登場。LLM-jpからも日本語が得意な軽量モデルが登場。楽しみになってきました。素人が少ないリソースで、独自データセットでファインチューニングすることもできるようになってきました。 引き続き、以前の挑戦に再トライ…