연구팀이 Vision-Language-Action(VLA) 모델을 실제 UR5 로봇 팔에 적용하는 실험을 진행했어요. 연구 결과, 모델 성능과 실제 로봇의 안정적인 작동 사이에 간극이 존재했어요.
실험은 데이터 획득 파이프라인 구축, RLDS 표준에 맞춘 데이터셋 변환, VLA 모델 fine-tuning 및 추론 인프라 구축 등을 포함했어요.
모델 성능 저하 원인은 모델 자체의 한계가 아니라, 액션 의미, 좌표계, 시간 정렬, 이미지 전처리 등 데이터-모델-제어 파이프라인 전반의 문제로 분석됐어요.
연구팀은 VLA 기반 로봇 시스템의 성공적인 배포를 위해 모델 성능 향상보다 데이터-모델-제어 파이프라인의 정밀한 관리가 더 중요하다고 강조했어요.