연구진은 최신 LLM의 문법 오류 교정 성능을 평가하여 GPT-4o가 편집 정확도, 유창성 유지, 의미 보존 측면에서 최고 성능을 달성했다고 밝혔습니다. 분석 결과, 개별 LLM들은 문법 오류 패턴이 유사한 경향을 보였으며(ρ=0.947), 기존 평가 지표는 GEC 시스템 성능을 과소평가하는 것으로 나타났습니다. 연구 결과는 교육자들이 학생의 언어 발달을 저해하지 않으면서 학습을 돕는 GEC 어시스턴트를 선택하는 데 도움이 될 것입니다.