연구진이 개방형 생성 작업에 적합한 강화 학습 방법 PPR-GDE(Pairwise Preference Reward and Group-based Diversity Enhancement)를 제안했어요. PPR-GDE는 스칼라 보상이 필요 없고 그룹 수준의 다양성을 보상 신호에 통합하여 주관적 평가의 비교 구조를 유지해요.
페어와이즈 선호도 보상은 주관적 관점의 정렬에 중요하며, 그룹 기반 다양성 지표는 우수한 표현력의 다양성과 광범위한 의미 커버리지를 달성하는 데 필수적이에요.
역할극 작업에서 PPR-GDE를 구현한 결과, 기존 강화 학습 방법보다 더 나은 품질과 표현력의 다양성을 달성했어요.
PPR-GDE는 판단자 위치 편향을 완화하기 위해 교환된 응답 순서로 반복적인 비교를 사용하고 응답 그룹 내의 의미 분산을 명시적으로 장려하는 그룹 기반 다양성 보상을 도입해요.