방글라어는 전 세계적으로 가장 널리 사용되는 언어 중 하나이지만, 교육 NLP 연구에서는 여전히 소외된 상태입니다. 원격 지역 학생들은 서면 답변에 대한 즉각적이고 일관된 피드백을 받기 어려워 대부분 수동으로 평가됩니다. 본 연구에서는 의미적으로 정확한 답변이 표면 형태에서 크게 다를 수 있다는 점을 고려하여 방글라어-영어 평가 시스템을 개발했습니다.
QLoRA로 미세 조정된 Qwen3-8B 모델은 합성 평가에서 가장 안전한 피드백(RoRa = 0.819)을 생성하고, 인간 평가에서 가장 높은 일치도(rho = 0.936, MAE = 0.725)를 보였습니다.
이 시스템은 질문, 참고 답변, 학생 답변을 활용하여 수치 점수와 상황에 맞는 간결한 피드백을 제공하여 교실에 배포할 수 있습니다.