2024-09-01から1ヶ月間の記事一覧
llm-jp/llm-jp-3-3.7b-instructとしたチューニングを施したllm-jp-3-3.7b-instruct-EZO-Humanitiesを試してみました。ColabのT4環境でVRAMぎりぎりで動作しました。日本語や日本関係の基礎知識は3.7bと思えないほどありそうな印象でした。ながながと文章を生…
あるふ(@alfredplpl)さんが、早速、量子化バージョンを作成しアップロードされていたので、ありがたくお試しします。1.8Bです。せっかくなので、ローカルランタイムに接続して走らせてみました。RTX 3060(12GB)で、VRAMの占有も小さく(3767MiB)、コンパクト…
Llama-3.2が発表されました。LLMLlama-3.2-1B-Instructは小型のモデルでローカルで気軽に動作できそうです。ファインチューニングして遊んでみます。本格的なチューニングは専門家にお任せするとして、どんな感じなんだろう・・・と動かすのが狙いです。ロー…
1.8Bでもなかなか良いのではないかと評判のLLM-jpをColabでチャレンジしました。浅い学習レベルですが、ファインチューニングして使ってみましたのでメモします。 llmc.nii.ac.jp ファインチューニングのパラメータは、特に最適化なぞ考えず、決め打ちです。…
ローカルLLMだといろんなモデルを同時に動かすのは大変だ。最近、(いまさら)LoRAで遊んでいたので、LoRAのモデルを切り替えることで複数のモデルを使い分ければ、プロンプトだけで悩まずに利用の幅が広がる。また、ゲームのNPCなんかだったら、いろんなキ…
LLMをファインチューニングするためのデータセットをLLM準備をしたところ、結構使えそうな印象がありました。面白いので、もう少しほかのデータで試したくなりました。 bwgift.hatenadiary.jp 前提 データセットの利用 データセットの対象 対象の論文を読み…
Qwen2.5が発表されていました。Qwen2もよかったので順調に進化しているのでしょう。 huggingface.co すでに多くの方がためしていらっしゃるようですが、自分でやります。7bモデルをColabのT4環境でためします。楽しみです。GGUFモデルは、今現在ollamaでは推…
ローカルでも稼働できる軽量で人にやさしい印象のある日本語得意なモデルが出てきています。最近ではTanukiが開発されたことは、とても印象深いです。今でも、OpenAIやGoogleのモデルを使って数を処理するのは、コスト的に大変で一般人のお小遣いレベルでは…
試行錯誤ができる便利なColab。しかも、サブスクリプションで私ごときでは買えない環境を気軽に使える。でも、いつもいつもだらだらと使っていると使い切ってしまう。そこで、自分のPC環境でColabを接続をして使うこともできるという言い訳でミドルエンドPC*…
RWKV-6-Worldを試していたら、日本語版あるよ、とレスポンスいただいたので早速ためしてみます。 There are Japanese-tuned models in https://t.co/RrJ6RQWmxn And check https://t.co/7Ug0gvrMq1 — BlinkDL (@BlinkDL_AI) 2024年9月10日 モデルはこちらで…
RWKVはTransformerとRNNの両方を盛り込んだ少し変わったモデル。地道に継続学習させたり新しいモデルを出し続けている。 半年前にも試していた。面白い試みなので、時々どうなったんだろうと気になる存在です。 bwgift.hatenadiary.jp RWKV-6-WORLDというモ…
ColabのT4環境でコンピューティングユニットを消費しながらスーパーマリオのステージ8-3を強化学習とLLM(MobileVLM)のコンビで学習させていました。学習がさちってきた感じがしてきたので、打ち切りました。また、LLMとしてQwen2_vl(2b)を味見しました。 LLM…