Pulse · AI 뉴스

텍스트·이미지·로봇 상태 기반 통합 모델, World-Language-Action (WLA) 공개

WLA · 2026-06-04

연구진이 텍스트 지시, 이미지, 로봇 상태를 입력받아 텍스트 서브태스크, 서브 골 이미지, 로봇 액션을 예측하는 새로운 통합 모델 WLA를 제안했어요.

WLA는 기존 WAM의 세계 모델링 인터페이스와 VLA의 언어 추론 능력을 결합하고, autoregressive Transformer 백본을 활용해 세계 예측에 영향을 미쳐 액션 생성을 가능하게 해요.

2B 파라미터의 WLA-0 프로토타입은 RoboTwin2.0 Clean에서 92.94%, RMBench에서 56.5%의 성공률을 기록하며, 액션 어노테이션 없이 로봇 비디오에서 새로운 작업을 학습할 수 있는 가능성을 보여줘요.

##로봇##AI##모델출시##WAM##VLA

매일 핵심 AI 소식을 한국어로, 빠르게