연구진은 멀티모달 LLM의 과거 관찰 재구성 및 행동 능력을 평가하는 벤치마크 RNG-Bench를 공개했어요. RNG-Bench는 Matching Pairs와 3D Maze 게임을 포함하며, 그리드 크기, 시각 패턴, 관찰 모달리티를 조절하여 난이도를 설정할 수 있어요. Qwen3.5-9B 모델을 최적 정책 롤아웃과 필터링된 데모로 파인튜닝하여 RNG-Bench 성능을 향상시키고 기존 벤치마크에서도 일반적인 멀티모달 능력을 저해하지 않았어요.