Pulse · AI 뉴스

관찰 너머: 제어 가능한 비마르코프 게임에서 멀티모달 LLM 평가

Qwen · 2026-06-17

연구진은 멀티모달 LLM의 과거 관찰 재구성 및 행동 능력을 평가하는 벤치마크 RNG-Bench를 공개했어요.

RNG-Bench는 Matching Pairs와 3D Maze 게임을 포함하며, 그리드 크기, 시각 패턴, 관찰 모달리티를 조절하여 난이도를 설정할 수 있어요.

Qwen3.5-9B 모델을 최적 정책 롤아웃과 필터링된 데모로 파인튜닝하여 RNG-Bench 성능을 향상시키고 기존 벤치마크에서도 일반적인 멀티모달 능력을 저해하지 않았어요.

##LLM##벤치마크##멀티모달##Qwen
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기