연구진은 LLM의 글쓰기 작업 성능 평가 및 훈련 문제를 해결하기 위해 미세 조정된 평가 파이프라인 WEval과 강화 학습 프레임워크 WRL을 제안했어요.
WEval은 다양한 작업 카테고리와 요구 사항을 포함하는 평가 데이터를 활용하여 보상 모델 순위와 실제 순위 간의 상관관계를 측정하여 글쓰기 보상 모델을 체계적으로 평가할 수 있도록 설계됐어요.
실험 결과, 제안하는 모델들은 다양한 글쓰기 벤치마크에서 상당한 성능 향상을 보였고, 일반화 능력도 뛰어났으며, 관련 코드와 데이터는 공개됐어요.