연구진은 LLM 평가의 한계로 고정된 벤치마크의 천장 및 바닥 효과를 지적하며, 모델의 경계 영역에서 가장 유용한 평가 신호가 나타난다고 주장합니다.
동적 경계 평가(DBE)는 각 모델의 경계를 찾아 전 세계적으로 비교 가능한 난이도 척도에 배치하며, 안전, 능력, 진실성 측면을 다루는 보정된 아이템 은행을 제공합니다.
DBE는 기존 데이터셋과 호환되면서도 더 넓은 모델 스펙트럼을 평가하고, 목표 모델의 능력에 따라 평가 집합을 적응적으로 확장하는 평가 프로토콜을 제시합니다.