연구진이 PerceptionRubrics라는 새로운 평가 프레임워크를 공개했어요. 이 프레임워크는 기존 벤치마크 점수와 실제 환경에서의 취약점 간의 격차를 해소하는 데 목표를 두고 있어요. 기존의 전체적인 의미 일치 평가에서 벗어나 엄격한 원자 수준 감사로 평가 방식을 전환했어요.
연구진은 1,038장의 정보가 풍부한 이미지와 12,000개가 넘는 사례별 척도를 페어링했어요. 이 척도는 Circular Peer-Review 합의 파이프라인을 통해 구성된 골든 캡션을 기반으로 만들어졌고, 필수 사실(Must-Right)과 미세한 세부 사항(Easy-Wrong) 척도로 구성된 이중 스트림 시스템으로 정제됐어요.
PerceptionRubrics는 Gated Scoring 메커니즘을 구현하여 필수적인 시각적 사실에 실패하면 엄격한 이진 페널티가 적용돼 기존 벤치마크보다 인간과 더 잘 정렬되는 엄격한 시각적 충실도가 신뢰할 수 있는 생성을 위한 필수 조건임을 검증했어요.