연구진이 PerceptionRubrics라는 새로운 평가 프레임워크를 공개했어요. 이 프레임워크는 기존 벤치마크 점수와 실제 환경에서의 취약점 간의 격차를 해소하는 데 목표를 두고 있어요. 1,038장의 이미지와 12,000개가 넘는 상세한 평가 기준을 결합하여 모델의 성능을 평가합니다.
연구 결과, 모델은 부분적으로는 정확하게 작동하지만, 필수적인 시각적 사실에 실패하면 엄격한 페널티를 부과하는 Gated Scoring 메커니즘을 통해 취약점을 드러냈어요. 오픈소스 모델과 독점 모델 간의 인지 능력 격차가 8% 지속된다는 점도 확인됐어요.