Pulse · AI 뉴스

PerceptionRubrics: 다중 모드 평가를 인간 인지 능력에 맞춰 조정하는 방법

PerceptionRubrics · 2026-06-26

연구진이 PerceptionRubrics라는 새로운 평가 프레임워크를 공개했어요. 이 프레임워크는 기존 벤치마크 점수와 실제 환경에서의 취약점 간의 격차를 해소하는 데 목표를 두고 있어요. 기존의 전체적인 의미 일치 평가에서 벗어나 엄격한 원자 수준 감사로 평가 방식을 전환했어요.

연구진은 1,038장의 정보가 풍부한 이미지와 12,000개가 넘는 사례별 척도를 페어링했어요. 이 척도는 Circular Peer-Review 합의 파이프라인을 통해 구성된 골든 캡션을 기반으로 만들어졌고, 필수 사실(Must-Right)과 미세한 세부 사항(Easy-Wrong) 척도로 구성된 이중 스트림 시스템으로 정제됐어요.

PerceptionRubrics는 Gated Scoring 메커니즘을 구현하여 필수적인 시각적 사실에 실패하면 엄격한 이진 페널티가 적용돼 기존 벤치마크보다 인간과 더 잘 정렬되는 엄격한 시각적 충실도가 신뢰할 수 있는 생성을 위한 필수 조건임을 검증했어요.

##평가##다중모드##인공지능##PerceptionRubrics

매일 핵심 AI 소식을 한국어로, 빠르게

App Store 에서 Pulse 받기 앱에서 열기