SOCO는 비전 모델의 객체 부분 이해 능력을 평가하는 새로운 벤치마크로, 객체 부분 간의 대응성을 테스트합니다.
SOCO는 100개 카테고리에 걸쳐 100만 개의 대응 쌍을 포함하며, 키포인트 언어 설명을 통해 거대 비전-언어 모델(LVLM) 평가를 지원합니다.
실험 결과, 비전 모델은 의미론적 구조를 잘 인코딩하지만 카테고리 간 대응성 전달과 객체 부분 위치 파악에는 한계가 있으며, SOCO 성능은 세분화된 다운스트림 작업 성능과 강하게 연관됩니다.