연구진은 LLM이 평가 항목을 생성하고 학생 응답을 시뮬레이션하며 점수를 매길 때 검증 루프가 자기 참조가 된다는 점을 지적했어요. 이를 해결하기 위해 '생성-평가 일치(GEA)'라는 새로운 타당성 기준을 제시했어요. GEA는 LLM의 채점 함수가 생성 함수가 지시한 기술 수준을 얼마나 정확히 회수하는지를 측정하는 지표예요.
GEA를 직접 측정해 본 결과, 두 단계 적응형 평가에서 모델은 의도된 분산의 약 절반인 0.698의 상관관계를 보였으며, 체계적인 양의 편향이 관찰됐어요. 구문 검증이 가능한 기술의 경우 GEA가 강하게 나타났지만, 디자인 수준의 기술에서는 거의 0에 가까웠어요.
연구진은 기술을 세분화하여 분해한 채점 기준이 GEA를 강화하는 주요 메커니즘이며, 상호 보완적인 완화 전략도 제시했어요.