연구진이 고전시 번역·해석 LLM 성능 향상을 위해 CCPoetry-49K 데이터셋을 공개했어요.
CCPoetry-49K는 용어 해석, 의미 해석, 감정 추론 3가지 하위 과제로 구성된 49,404개 고품질 데이터셋이에요.
Qwen2.5-14B 모델을 LoRA로 파인튜닝한 PoetryQwen은 CCL25-Eval Task 5 벤치마크에서 9.7% 성능 향상을 기록했어요.
PoetryQwen은 고전시의 정확한 번역과 감정 이해 능력을 크게 향상시키는 것을 보여줘요.