Pulse · AI 뉴스

개인 맞춤형 선호도 정렬을 위한 그룹 상대 정책 최적화

Apple ML Research · 2026-04-02

최근 LLM은 일반적인 성능이 뛰어나지만, 표준적인 RLHF 방식은 단일 글로벌 목표에 최적화되어 다양한 개인 선호도에 부합하지 못하는 경우가 많습니다.

기존 GRPO는 그룹 기반 정규화를 통해 모든 샘플이 교환 가능하다고 가정하여 개인 맞춤형 설정에서 이러한 한계를 공유합니다.

본 연구에서는 이 가정을 벗어나 각 사용자 보상 분포의 차이를 고려하는 새로운 그룹 상대 정책 최적화 방법을 제안합니다.

##모델출시##개인화##강화학습

매일 핵심 AI 소식을 한국어로, 빠르게