사용자가 Qwen2.5-0.5B-Instruct 모델을 Reddit 게시물 요약 작업에 활용하기 위해 GRPO 기반으로 PyTorch 학습을 진행했으며, 평균 롤아웃 길이는 약 64토큰으로 달성했습니다.
모델 학습 시 응답 길이와 최대 길이를 비교하는 길이 페널티와 ROUGE-L 기반 품질 보상을 사용했으며, 향후 길이 페널티만 사용하는 기준 모델과 품질 보상을 결합한 모델을 비교할 예정입니다.
DeepEval을 활용하여 gpt-5를 LLM-as-a-Judge로 사용하여 요약본의 신뢰성, 핵심 내용 반영 여부, 간결성, 명확성을 평가하고, Mac Mini 3대를 클러스터로 구성하여 MLX 환경에서 학습을 진행했습니다.