Pulse · AI 뉴스

기계 평가가 문학 번역의 창의성을 제대로 평가하지 못하는 이유

arXiv cs.CL · 2026-05-13

이 연구는 자동 평가 지표(AEM)와 LLM 평가가 문학 번역 평가에서 전문가와 얼마나 일치하는지, 특히 창의성(창의적 변형 및 오류) 측면에서 조사합니다.

결과는 AEM과 LLM 평가 모두 창의성 평가에서 전문가와 상관관계가 낮으며, LLM은 기계 번역 텍스트에 편향된 경향을 보이고 창의적인 해결책을 penalize 한다는 것을 보여줍니다.

시와 같은 문학 장르에서 성능이 더욱 저조하며, 이는 현재 자동 평가 도구의 근본적인 한계를 드러냅니다.

##번역평가##LLM##문학번역##자동평가##창의성
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기