CoEval은 라벨 데이터 없이 특정 작업에 적합한 언어 모델을 선택하거나 순위를 매길 수 있도록 돕는 오픈소스 프레임워크입니다. 기존 벤치마크의 신뢰성 문제가 해결되었으며, 모델이 암기한 결과가 아닌 실제 성능을 측정합니다.
CoEval은 모델 설명만으로 신선하고 속성 기반의 벤치마크를 생성하며, 각 실행마다 새로운 항목을 생성하여 오염 가능성을 없앱니다. 또한, 인간 평가가 필요 없이 모델을 순위화합니다.
작업별 연구에서 7,978건의 평가를 5.89달러에 수행했으며, 누구나 자체 애플리케이션을 위해 재현할 수 있는 라벨 없는 벤치마크를 생성할 수 있습니다.