Pulse · AI 뉴스

프레임당 1토큰: VLA 정책을 위한 월드 모델의 시각 대역폭 재고

OneWM-VLA · 2026-05-09

연구진은 시각-언어-행동(VLA) 모델의 월드 모델 파라미터 설계에 대한 새로운 접근 방식인 OneWM-VLA를 제안했습니다.

OneWM-VLA는 프레임당 시각 정보를 단일 의미 토큰으로 압축하여 월드 모델의 효율성을 높이고, 14.71M LoRA 파라미터로 MetaWorld~MT50에서 성공률을 61.3%까지 향상시켰습니다.

실험 결과, 프레임당 시각 대역폭을 단일 토큰으로 줄여도 장기적인 성능 저하 없이 VLA 모델을 개선할 수 있음을 확인했습니다.

##VLA##월드모델##로라
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기