연구진이 LLM의 분포 변화에 따른 신뢰성 문제를 해결하기 위해 Gradient-Guided Reward Optimization (GGRO) 방법을 제시했어요. GGRO는 토큰 수준의 엔트로피를 모니터링하여 불확실한 영역을 파악하고, 그래디언트 신호를 활용해 생성 경로를 조정하는 방식이에요.
기존 방법 대비 GGRO는 안전성, 유용성, 추론 벤치마크에서 정렬 성능을 향상시키고, 고품질 응답 범위를 넓히며, 보상 해킹에 대한 강건성을 높여요.
GGRO는 기존 방식보다 계산 비용 부담이 적고, GitHub에서 코드를 확인할 수 있어요.