Pulse · AI 뉴스

로봇, VLA와 월드 모델만으로는 부족하다

HuggingFace Papers · 2026-06-04

일반 로봇 지능 향상을 위해 VLA 모델 크기를 키우는 방식은 불완전하다. 로봇 정책 학습 외에, 비정형 행동 데이터를 로봇 지도 학습으로 전환하는 메커니즘이 필요하다. 데이터 인터페이스, 신체 인터페이스, 월드 모델 인터페이스, 보상 인터페이스의 네 가지 요소가 로봇 지능 발전의 핵심이다.

인간 동작, 인터넷 영상, 시뮬레이션 결과 등은 풍부한 정보를 담고 있지만, 로봇 정책에 직접 사용하기 어렵다. 이러한 데이터를 활용하기 위해 로봇의 신체적 제약, 목표, 실패 경험 등을 반영해야 한다. 최근 로봇 파운데이션 모델, 교차 신체 데이터셋, 영상 학습, 월드 모델, 보상 모델링 연구가 진행 중이다.

연구 과제로는 비정형 행동 데이터 자동 라벨링 인터페이스, 인간 동작을 로봇 동작으로 재타겟팅하는 신체 인터페이스, 물리 기반 3D 추론을 위한 월드 모델 인터페이스, 영상과 언어로부터 작업 진행 상황과 성공을 추론하는 보상 인터페이스 개발이 필요하다.

##로봇##AI##월드모델##VLA##학습
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기