사용자가 3대의 Mac Mini 클러스터에서 GRPO를 활용하여 Qwen2.5-0.5B-Instruct 모델을 훈련하며, 레딧 게시물 요약 시 품질 보상과 길이 페널티를 결합하는 실험을 진행했어요.
ROUGE-L, METEOR, BLEU 등 다양한 품질 보상 지표를 사용했지만, 각 지표만으로는 훈련 효과를 보기 어려웠고, 길이 페널티가 목표 길이 제한과 충돌하는 것으로 판단했어요.
METEOR+BLEU, BLEU+ROUGE-L, METEOR+ROUGE-L 조합을 통해 품질 보상을 시도하고 있으며, 모델과 평가 결과물은 Hugging Face에 공개되었고, 다음 단계는 조합 보상에 대한 t-검정을 진행할 예정이에요.