Pulse · AI 뉴스

관찰 너머: 제어 가능한 비마르코프 게임에서 멀티모달 LLM 평가

Qwen · 2026-06-18

연구진은 과거 관찰 내용을 재구성하고 행동에 활용하는 LLM의 능력을 평가하는 벤치마크 RNG-Bench를 공개했어요.

RNG-Bench는 카드 기억 게임인 Matching Pairs와 3D 미로 게임으로 구성되며, 난이도 조절을 위한 세 가지 축(그리드 크기, 시각 패턴, 관찰 모달리티)을 포함해요.

Qwen3.5-9B 모델을 최적 정책 기반으로 튜닝하여 RNG-Bench 성능을 향상시켰고, 기존 벤치마크에서도 일반적인 멀티모달 능력 저하 없이 효과를 보였어요.

##LLM##벤치마크##멀티모달##Qwen

매일 핵심 AI 소식을 한국어로, 빠르게