Pulse · AI 뉴스

레딧 게시물 요약 모델 훈련: GRPO 활용 64 토큰 제한 실험

Qwen · 2026-05-05

사용자는 GRPO를 활용하여 3개의 Mac Mini 클러스터에서 64 토큰으로 제한된 레딧 게시물 요약 모델을 훈련하고 있습니다.

LFM2.5.-350M 및 Qwen2.5-0.5B-Instruct 모델을 사용하여 BLEU 및 ROUGE-L 점수 저하 문제를 해결하기 위해 노력했습니다.

DeepEval을 활용한 LLM-as-a-Judge 평가 파이프라인을 구축하여 요약의 충실성, 범위, 간결성, 명확성을 측정하고 있습니다.

MLX 프레임워크를 사용하여 3개의 Mac Mini 클러스터에서 GRPO 훈련을 진행하며, 동기식 파라미터 서버 아키텍처를 사용합니다.

향후 SFT 및 DPO 비교 실험을 통해 모델의 토큰 출력 정확도를 높일 계획입니다.

##LLM##요약##GRPO##MLX##레딧

매일 핵심 AI 소식을 한국어로, 빠르게