Pulse · AI 뉴스

상상력으로 사고하기: 월드 시뮬레이터를 활용한 에이전트 기반 시각 공간 추론

Astra · 2026-06-04

연구진은 Vision-Language Model(VLM)의 공간 추론 능력을 향상시키는 Astra 프레임워크를 제안했어요. Astra는 VLM이 월드 시뮬레이터와 상호작용하며 상상 속의 시각적 증거를 획득하도록 지원해요.

Astra-WM 시뮬레이터는 뷰 일관성 튜닝을 통해 신뢰성 있는 상상 증거를 제공하며, Astra-VL 정책은 RL을 통해 훈련돼 시뮬레이터 활용 능력을 향상시켰어요.

MMSI-Bench에서 Gemini-3-Flash 성능이 45.1에서 49.5로, MindCube에서 Qwen3-VL 성능이 36.8에서 42.7로 향상되며 월드 시뮬레이터와 에이전트 정책의 중요성이 입증됐어요.

##VLM##공간추론##월드시뮬레이터##Astra
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기