연구진은 시각-언어-행동(VLA) 모델의 구조적 불일치 문제를 해결하기 위해 AffordanceVLA 프레임워크를 제안했어요. AffordanceVLA는 객체 중심의 시각적 잠재력 예측, 2D 상호작용 위치 추정, 3D 기하학적 추론을 통해 조작 우선순위를 모델링해요. 시뮬레이션 및 실제 환경 실험 결과, AffordanceVLA는 다양한 조작 시나리오에서 뛰어난 성능을 보여줬어요.