AFUN은 시각적 인식과 물리적 행동을 연결하여 로봇 조작을 위한 설명 가능한 인터페이스를 제공하는 모델입니다.
단일 RGB-D 관찰과 언어 기반 작업 설명을 통해 상호 작용 위치(기능적 마스크)와 3D 접촉 후 운동 곡선(상호 작용 방법)을 예측합니다.
다양한 로봇, 인간, 시뮬레이션, 실제 환경 데이터를 공유 어포던스 스키마로 변환하는 대규모 표준화 데이터 파이프라인을 구축하여 개방형 세계 일반화를 지원합니다.
어포던스 분할, 접촉점 예측, 3D 운동 측면에서 기존 모델보다 성능이 뛰어나며, 실제 로봇 조작에 파인튜닝 없이 적용 가능합니다.