OmniGameArena는 12개의 Unreal Engine 5 게임으로 구성된 새로운 벤치마크입니다. Solo, PvP, Coop 모드를 지원하며, 다양한 VLM 에이전트를 통일된 방식으로 평가합니다. Improvement Dynamics Curve(IDC)를 통해 에이전트의 성능 향상 과정을 분석하고, 학습된 기술이 변형된 작업에서 어떻게 작동하는지 확인합니다.
IDC는 에이전트가 스스로 제한된 기술 프롬프트를 개선하는 과정을 거치며, 이를 통해 성능 변화 추이와 학습된 기술의 행동 양상을 관찰할 수 있습니다. 12개의 VLM 에이전트를 콜드 스타트 리더보드에서 평가하고, IDC 환경에서 상위 4개 에이전트를 테스트했습니다.