Pulse · AI 뉴스

GIM: 다중 인지 영역 통합 평가 모델

GIM · 2026-05-19

연구진은 LLM 벤치마크의 한계를 극복하기 위해 GIM(Grounded Integration Measure)을 개발했습니다. GIM은 개별 문제를 해결하는 데 여러 인지적 작업을 조정해야 하는 820개의 문제로 구성되어 있습니다.

GIM은 28개 모델의 프롬프트-응답 쌍 20만 건 이상을 기반으로 2PL IRT 모델을 사용하여 정확한 능력 추정치를 제공하며, 데이터 오류나 누락에도 강건합니다.

연구 결과, 모델 선택만큼이나 thinking budget 및 양자화와 같은 구성 요소가 모델 성능에 중요한 영향을 미치는 것으로 나타났으며, 평가 프레임워크와 IRT 파라미터를 공개했습니다.

##LLM##벤치마크##평가##GIM##인지

매일 핵심 AI 소식을 한국어로, 빠르게