LLMでマリオをプレイ。引き続きトライしています。GPT-4oを使っています。基本的にプロンプト芸でどうにかしようとしています。
結果です。

試行錯誤で気が付いた点です。
1、位置関係の理解レベルが低い
2、したがって、移動やジャンプによる予測線とブロックや敵キャラと関係性が考慮できない。
3、直前の操作や状況、操作のパターニングは、最低レベルでは指示を守る。
そこそこ操作できる能力はあるものの、何かあったらジャンプというレベルに落ち着く。例えばブロックとの位置関係を考えてジャンプのタイミングを図れない。その結果、ランダムな動作が重要になってくるのでTempurature を小さくしても良い方向に行かないし、到達ポイントだけ比べるとMobile vLLMと大差ない結果となっている。とすると、たぶん、4oじゃなくても4o-miniや他のモデルでも大差ない結果になるのでは・・・ないでしょうか。
何かできないか、考えてみると・・・、画像から自分のキャラやブロックや敵位置を数値化した位置を表現して、さらに別途プロンプトに操作と移動距離について記述して・・・操作した結果よるフィードバックプロンプトをLLM自ら自動作成しつつ賢くする・・・って、LLMによる強化学習じゃん!
今回使ったColabnotebookです。
過去記事