地平線まで行ってくる。

記録あるいは忘備録。時には検討事項。

2025-02-07から1日間の記事一覧

UnslothのGRPO notebook(Colab)でTinySwallow-1.5B-Instructを学習させてみる。

LLMにGroup Relative Policy Optimization (GRPO)をLoRAと組み合わせて、GPUリソースが少なくても学習させることができる手法をUnslothさんが提案されていたので、ためしてみます。サンプルのColabモデルでベースモデルをSakanaAI/TinySwallow-1.5B-Instruct…