이 논문은 다수의 LLM을 활용하여 중등 수학 능력 평가를 자동화하는 데 어려움을 겪는 교육자들을 위해 인간-LLM 협업 벤치마킹 프레임워크를 제안합니다. Eagle, Orion, Nova, Lyra 등 다양한 LLM을 벤치마킹한 결과, 모델 아키텍처가 지침 제약 조건과 호환되는 것이 모델 규모보다 중요함을 확인했습니다. 현재 LLM은 자율 인증에 적합하지 않지만, 인간의 감독 하에 초기 증거 추출을 지원하는 데 유용합니다.