연구진이 RLAIF 프레임워크를 활용해 이식 가능한 채용 쿼리를 생성하는 방법을 제시했어요. 이 쿼리는 구직자의 개인 식별자를 추상화하면서 일반적인 자격 요건을 보존하는 역할을 해요.
보상 신호 설계가 최적화 알고리즘 선택보다 성능에 더 큰 영향을 미치는 것으로 나타났어요. 특히 critic-free 최적화에서는 보상 신호 형성이 중요해요.
연구 결과, verbatim copying을 방지하는 rule-based 보상 신호 바닥을 도입하면 품질이 크게 향상됐고, 학습 시간 동안의 보상 모델이 성능 향상을 2.4배 증가시켰어요.