2025-02-07から1日間の記事一覧

2025-02-07

UnslothのGRPO notebook（Colab）でTinySwallow-1.5B-Instructを学習させてみる。

LLMにGroup Relative Policy Optimization (GRPO)をLoRAと組み合わせて、GPUリソースが少なくても学習させることができる手法をUnslothさんが提案されていたので、ためしてみます。サンプルのColabモデルでベースモデルをSakanaAI/TinySwallow-1.5B-Instruct…

#自然言語処理 #LLM

地平線まで行ってくる。

記録あるいは忘備録。時には検討事項。

2025-02-07から1日間の記事一覧

UnslothのGRPO notebook（Colab）でTinySwallow-1.5B-Instructを学習させてみる。