자동 에세이 채점(AES) 벤치마킹은 평가 프레임워크의 광범위한 권장 사항과 대조적으로 최소한의 평가 방식을 장려했어요. 연구진은 공정성 분석, 언어적 특징과의 상관관계, 예측 오류 평가, 인간 평가자와의 모델 일치성 비교를 통합한 ABV 프레임워크를 개선했어요. 프랑스어 AES에 ABV 프레임워크를 적용하여 8가지 모델 아키텍처를 27,000개의 시험 에세이(각 2명의 평가자)와 961개의 일반화 에세이(최소 9명의 평가자)로 비교했어요.