연구진이 LLM의 사용자 선호도 정렬을 위한 새로운 프레임워크 'REAR'을 공개했어요. REAR은 질문과 선호도 정보를 분리하여 보상을 재조정하는 방식으로 작동해요. 기존 TTS 방식의 한계를 극복하고 수학, 시각 작업까지 확장 가능하며, 다양한 사용자 요구사항에 맞춰 테스트 시간 선호도 정렬을 가능하게 해요. REAR은 토큰 수준 정책 로그 확률의 선형 조합으로 표현되어 계산 효율성이 높고, 다양한 TTS 알고리즘과 통합이 용이해요.