연구진은 로봇 작업에 사용되는 비전-언어 모델(VLM)의 수치 추론 능력을 향상시키기 위해 새로운 훈련 전략인 Auxiliary Regression Loss(ARL)를 제안했습니다.
ARL은 객체 감지 및 객체 상태 위치 추정을 위해 VLM을 미세 조정하며, 추론 시에는 표준 시퀀스 예측을 유지합니다.
연구진은 새로운 벤치마크인 Object State Affordance Reasoning(OSAR)을 공개하고, StateVLM이 ARL을 통해 기존 모델보다 성능을 향상시켰음을 입증했습니다.