연구진은 교육 평가 설계에 LLM과 SLM을 활용하는 효과를 비교 분석했어요. SLM은 개인 정보 보호 및 자원 제약 문제를 해결하는 데 유리하지만, 평가 작업에서의 효과는 아직 미지수였어요. 결과적으로 SLM은 주요 품질 측면에서 경쟁력 있는 성능을 보였으며, 현장 배포 시 개인 정보 보호를 가능하게 했어요.
생성된 질문의 품질을 Bloom의 분류 수준에 따라 평가한 결과, SLM이 LLM과 비슷한 수준의 성능을 보였지만, 모델 기반 평가가 전문가 평가와 일관성을 보이지 않는다는 한계도 확인했어요. 이 연구는 언어 모델을 제한적인 조력자로 활용하고, 인간의 개입을 강조하는 방안을 제시합니다.
연구 결과는 교육적 질문 생성 자동화 분야에서 품질, 신뢰성, 배포 관련 트레이드오프를 검토하는 데 기여하며, LLM과 SLM의 활용 가능성을 보여줍니다.