연구진은 과거 관찰 내용을 재구성하고 행동에 활용하는 LLM의 능력을 평가하는 벤치마크 RNG-Bench를 공개했어요.
RNG-Bench는 카드 기억 게임인 Matching Pairs와 3D 미로 게임으로 구성되며, 난이도 조절을 위한 세 가지 축(그리드 크기, 시각 패턴, 관찰 모달리티)을 포함해요.
Qwen3.5-9B 모델을 최적 정책 기반으로 튜닝하여 RNG-Bench 성능을 향상시켰고, 기존 벤치마크에서도 일반적인 멀티모달 능력 저하 없이 효과를 보였어요.