본 연구는 VLA(Vision-Language-Action) 모델 초기화에 적합한 VLM(Vision-Language Model) 표현 방식을 연구했어요. VLM의 기능 수준, 파라미터 업데이트 전략, 로봇 데이터 사전 훈련 세 가지 축을 중심으로 실험을 진행했답니다.
기존 VLM 표현 방식이 행동 성능의 핵심 요소라는 점이 확인되었지만, 몸체화된 VQA(Visual Question Answering) 적응은 일관된 효과를 내지 못했어요. 특정 분야의 이점은 단순 합산되지 않는다는 점도 발견되었죠.
LoRA(Low-Rank Adaptation) 방식이 전체 파인튜닝보다 안정적인 초기화를 제공하며, 로봇 데이터 사전 훈련은 VLA 초기화를 더욱 개선하는 것으로 나타났어요.