연구진은 로봇이 인간의 지시를 따라 작업을 수행하도록 돕는 FineVLA 프레임워크를 공개했어요.
FineVLA는 10개의 오픈소스 로봇 데이터셋에서 47,159개의 세밀한 트랙션을 수집하고 검증하여 FineVLA-Data를 구축했어요.
세밀한 지시 학습은 목표 달성률을 저해하지 않으며, 로봇의 자세, 색상, 접근 방향 제어 성능을 향상시켜요.
연구 결과, 세밀한 언어 지시는 목표 지향적 지시와 함께 사용되어 작업 수행 방법을 구체적으로 안내하는 데 효과적이에요.