연구진은 LLM 벤치마크가 포화 상태에 이르렀을 때, 새로운 벤치마크를 만드는 대신 기존 벤치마크의 평가 방식을 개선하여 잠재적 순위 신호를 추출하는 방법을 제시했어요.
SEAL(Seeded Elimination with Adaptive LLM-as-a-Meta-Judge)은 후보 결과물을 단일 제거 방식으로 평가하고, LLM 메타 심판관을 활용하여 자체 개선되는 체크리스트 기준을 적용하는 평가 프로토콜이에요.
SEAL은 코드 생성, 수학적 추론, 지식 기반 질의 응답, 도구 사용 에이전트 작업 완료 등 다양한 벤치마크에서 기존 프로토콜보다 순위 정확도와 지연 시간 간의 균형을 개선하며, 완전한 쌍대 비교 평가에 비해 훨씬 적은 호출 횟수로 높은 Spearman 상관 관계와 상위 1개 일치율을 달성했어요.