SOCO는 비전 모델의 객체 부분 이해 능력을 평가하는 새로운 벤치마크입니다. 100개 카테고리에 걸쳐 100만 개의 대응 쌍을 포함하며, 키포인트 언어 설명도 제공하여 거대 비전-언어 모델(LVLM) 평가를 지원합니다. SOCO 실험 결과, 비전 모델은 의미론적 구조를 잘 표현하지만, 카테고리 간 대응성 전달과 객체 부분 위치 파악에는 한계가 있는 것으로 나타났습니다.