교육 자료 평가의 중요성이 커짐에 따라, 생성형 AI를 활용한 교육 자료 제작이 늘어나고 있어요. 연구팀은 교육 자료 자동 평가(AIME)를 위한 벤치마크 데이터셋 SciEval을 구축하고, 다양한 LLM 모델을 테스트했어요. Qwen3 모델을 SciEval 데이터셋으로 미세 조정하여 성능을 11% 향상시키는 결과를 얻었으며, 이는 특정 분야에 맞춘 미세 조정의 중요성을 보여줘요.