2024-03-01から1ヶ月間の記事一覧
Qwenの新しいモデルQwen1.5-MoE-A2.7Bを試して見ました。少し期待しつつ・・・。 モデルのページはこちら。 huggingface.co 質問:日本で2番目に高い山は?日本で2番目に高い山は富士山です。 なかなか正解は難しい。 質問:日本の観光地でおススメを教えて…
RakutenAI-7Bはいい感じだったので、ggufで速度やお家GPUで活用できるのかも、と期待しつつおためし。instructモデルです。 Colab T4環境で動かしてみた。 gist.github.com 以下のやり取りで、Wall timeで2.78s。 問い:日本の有名な観光地と名物は?詳しく…
楽天からもLLMモデルが発表された。日本語のモデルが沢山出てきてどんどんよくなるといいですね。 huggingface.co さっそく試して見ました。 まどか☆マギカで一番かわいいのは? まどか☆マギカには、個性豊かなキャラクターがたくさんいます。人それぞれ好み…
RWKVは、RNNとTransformerを組み合わせた推論が軽いという。継続して学習させているというので、時々チェックしていた。Eagle 7Bというモデルが出たので試してみる。翻訳性能も高くなっていて期待しつつ。 blog.rwkv.com というわけで、colabのメモリup+GPU…
オープンなモデルでかつ一歩進んでいる感じのあるSwallow。MS-7Bは7Bとしては高い性能があるらしいということで試して見ます。 huggingface.co npakaさんの記事を見ながらColabで構築します。 note.com gist.github.com ColabのGPU T4で動かせるようなのでT4…
Tinyllamaをお気軽に量産?できる、infinite-tinyllamaをcolabで動作させてみました。ファインチューニングがお手軽にできると、きっと楽しくなるのだろうと思ってローカルで動かそうとしたのだが、何かとめんどくさいのでColabで動かしてみた。 github.com …