Pulse · AI 뉴스

Astra: 시뮬레이터 기반 시각 공간 추론 에이전트 프레임워크

Astra · 2026-06-05

연구진은 Vision-Language Model(VLM)의 공간 추론 능력 한계를 극복하기 위해 Astra라는 에이전트 기반 프레임워크를 제안했어요. Astra는 VLM이 세계 시뮬레이터와 상호작용하며 상상력을 발휘하여 시각적 증거를 획득하도록 지원해요.

Astra-WM 시뮬레이터는 다양한 시점의 관찰 데이터를 생성하고, Astra-VL 정책은 이를 활용하여 공간 추론을 수행해요. Astra-WM은 시점 일관성 튜닝으로 신뢰성 있는 상상 증거를 제공하도록 학습됐어요.

실험 결과, Astra-WM은 Gemini-3-Flash의 MMSI-Bench 성능을 45.1에서 49.5로, Astra-VL은 Qwen3-VL의 MMSI-Bench 성능을 29.8에서 38.8로 향상시켰어요. MindCube에서는 각각 36.8에서 42.7로 성능이 개선됐어요.

연구는 상상된 관찰이 유용한 공간적 증거를 제공하지만, 효과적인 추론을 위해서는 시뮬레이터를 언제, 어디서, 어떻게 사용할지 학습하는 것이 중요하다는 것을 보여줘요.

##VLM##공간추론##시뮬레이터##Astra##에이전트
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기