연구진이 장문 컨텍스트 강화 학습을 위한 완전 공개 역량 기반 후처리 레시피인 GoLongRL을 발표했어요. GoLongRL 데이터셋은 9가지 작업 유형을 포함하며, 자연스러운 평가 지표와 함께 제공돼 기존 방법보다 더 나은 성능을 보여줘요. TMN-Reweight 기술은 다양한 작업의 보상을 정렬하고 더 안정적인 이점 추정을 위해 도입되어 성능을 향상시켰어요.