이 연구는 자동 평가 지표(AEM)와 LLM 평가가 문학 번역 평가에서 전문가와 얼마나 일치하는지, 특히 창의성(창의적 변형 및 오류) 측면에서 조사합니다.
결과는 AEM과 LLM 평가 모두 창의성 평가에서 전문가와 상관관계가 낮으며, LLM은 기계 번역 텍스트에 편향된 경향을 보이고 창의적인 해결책을 penalize 한다는 것을 보여줍니다.
시와 같은 문학 장르에서 성능이 더욱 저조하며, 이는 현재 자동 평가 도구의 근본적인 한계를 드러냅니다.