자동 단답형 평가(ASAS)는 기존의 미세 조정된 모델에서 소량의 데이터로 사용되는 대규모 언어 모델(LLM)로 전환되고 있습니다. LLM의 광범위한 지식과 배포 용이성을 활용하지만, 복잡한 평가 작업에 대한 정렬이 제한될 수 있습니다. 특히, 미묘한 해석이 필요한 부분적으로 정답인 응답에 대한 평가에 미치는 영향은 아직 제대로 연구되지 않았습니다.
GPT-5.2, GPT-4o, Claude Opus 4.5 등 세 가지 LLM, 미세 조정된 BERT 기반 인코더, 생물학 교육 전문가가 제공한 수백 개의 학생 응답과 정답 점수를 사용하여 두 가지 개방형 생물학 문제에 대해 품질 조건부 점수 합의 관계를 조사했습니다.
연구 결과, 인간-인간 합의는 전체 품질 스펙트럼에서 가장 높고 안정적이며, 모든 AI 모델은 완전히 정답이고 완전히 틀린 응답에 대해서는 잘 수행되지만 중간 범위 응답에서 상당한 저하를 보입니다.