연구진이 부분적으로 검증 가능한 작업에 대한 강화 학습 프레임워크인 Soft-RLVR을 발표했어요. Soft-RLVR은 프롬프트를 여러 요구 사항 목록으로 분해하고, LLM 검증기로 항목별로 점수를 매겨 부분 점수를 제공하는 방식이에요. 자기 검증 변형인 Soft-SVeRL은 정책이 검증기로도 작동하지만, 지나치게 관대한 자기 평가로 인한 보상 인플레이션을 방지하기 위해 안정화가 필요해요.