ResRL은 LLM의 추론 능력을 향상시키면서도 다양성을 유지하기 위해 부정 샘플 투영 Residual 강화 학습을 제안합니다. Lazy Likelihood Displacement(LLD)와 긍정/부정 헤드-그래디언트 간섭을 연결하고, 보수적인 어드밴티지 재가중을 위한 단일 포워드 프록시를 도출했습니다. ResRL은 수학, 코드, 에이전트 작업, 함수 호출 등 12개 벤치마크에서 기존 방식보다 뛰어난 성능을 보였습니다.