사용자는 GRPO를 활용하여 3개의 Mac Mini 클러스터에서 64 토큰으로 제한된 레딧 게시물 요약 모델을 훈련하고 있습니다.
LFM2.5.-350M 및 Qwen2.5-0.5B-Instruct 모델을 사용하여 BLEU 및 ROUGE-L 점수 저하 문제를 해결하기 위해 노력했습니다.
DeepEval을 활용한 LLM-as-a-Judge 평가 파이프라인을 구축하여 요약의 충실성, 범위, 간결성, 명확성을 측정하고 있습니다.
MLX 프레임워크를 사용하여 3개의 Mac Mini 클러스터에서 GRPO 훈련을 진행하며, 동기식 파라미터 서버 아키텍처를 사용합니다.
향후 SFT 및 DPO 비교 실험을 통해 모델의 토큰 출력 정확도를 높일 계획입니다.