ForgeVLA는 중앙 데이터 수집 없이 분산된 로봇의 비전-액션 데이터를 활용해 VLA 모델을 훈련하는 프레임워크입니다. 각 클라이언트는 비전-액션 쌍을 미리 정의된 명령어 세트로 매핑하여 누락된 언어 모달리티를 복구합니다. 비전-언어 특징 붕괴 문제를 해결하기 위해 클라이언트 측 대비 학습 계획 손실과 서버 측 적응형 집계 전략을 결합했습니다.
ForgeVLA는 기존 연구에서 간과된 비전-언어 특징 붕괴 문제를 해결하는 데 중점을 둡니다. 이를 위해 클라이언트 측 대비 학습 계획 손실과 서버 측 적응형 집계 전략을 사용합니다. 이러한 접근 방식은 로봇 지능 훈련의 효율성을 높입니다.
다양한 벤치마크 실험 결과, ForgeVLA는 기존 방식보다 성능이 뛰어나며 각 구성 요소의 기여도를 검증하는 연구 결과도 확인했습니다.