2025-01-27から1日間の記事一覧
Qwen2.5-instructモデルを継続事前学習を実施したABEJA-Qwen2.5-32b-Japanese-v0.1が公開されていたので、お試しします。Colab L4環境でVRAM占有率は20603MiB / 23034MiBです。日本語能力の向上が楽しみです。 huggingface.co huggingface.co Qwen2.5-32Bは…
R1の蒸留モデル、phi-4バージョンも試します。ggufは、mmngaさん作成のものをありがたく使います。Colab L4環境でためしました。VRAM占有率は 11061MiB / 23034MiBです。 huggingface.co 推論は日本語で出力されました。Phi-4の性質が強く感じられる結果とな…
Cyberagent/DeepSeek-R1-Distill-Qwen-14B-Japanese-ggufのggufファイルが上がっていたので、早速味見をします。知識不足のハルシネーションが推論途中に入るとハルシネーションがハルシネーションを呼ぶ展開に・・・。推論が必要か、不要かを組み込んだモデ…