Pulse · AI 뉴스

BiasGRPO: 그룹 상대적 정책 최적화를 통한 고분산 보상 환경에서의 편향 완화 안정화

BiasGRPO · 2026-06-03

BiasGRPO는 대규모 언어 모델(LLM)의 사회적 편향 완화를 위해 그룹 상대적 정책 최적화(GRPO)를 활용하는 새로운 프레임워크입니다.

BiasGRPO는 기존 DPO와 PPO 방식의 불안정성 문제를 해결하고 온라인 학습의 탐색 이점을 유지하며 여러 벤치마크에서 우수한 성능을 보입니다.

연구진은 다양한 도메인과 맥락을 포괄하는 합성 데이터셋을 확장하고, 지식 저하를 방지하는 효율적인 편향 보상 모델을 개발하여 공개했습니다.

##편향완화##LLM##강화학습##BiasGRPO

매일 핵심 AI 소식을 한국어로, 빠르게