연구진이 LIBERO 벤치마크를 10개 언어로 번역하여 시각-언어-행동 모델의 다국어 성능을 최초로 체계적으로 평가했어요. 영어 이외의 언어로 지시사항을 내리면 성공률이 30~50%까지 떨어지는 심각한 성능 저하가 확인됐어요. 단계별 분석 결과, 일부 단계는 언어 의존성이 높고 전체 작업 실패를 지배하는 반면, 다른 단계는 언어에 크게 영향을 받지 않는다는 사실이 밝혀졌어요.
언어 의존성이 높은 단계를 중심으로 표현을 조정하는 단계별 개입 방법을 제안하여, 언어적 변동성 하에서 성능을 크게 향상시켰어요. 연구 결과는 시각-언어-행동 모델의 언어 강건성이 시간적으로 구조화된 제어 문제라는 점을 시사하며, 신뢰할 수 있는 임베디드 에이전트 개발에 중요한 통찰력을 제공합니다.
본 연구는 언어적 변동성에 대한 VLA 모델의 강건성을 높이기 위해 단계별로 언어 민감도를 고려한 제어 방식이 중요하다는 점을 강조합니다.