연구진이 장문 컨텍스트 강화 학습을 위한 오픈소스 레시피인 GoLongRL을 공개했어요. 기존 방법은 복잡한 검색 경로 설계에 집중하여 다양한 작업 커버리지 부족과 실제 장문 컨텍스트 요구사항을 제대로 반영하지 못하는 보상 문제를 야기했어요. GoLongRL은 기능 중심 데이터 구축과 이기종 다중 작업 최적화를 위한 TMN-Reweight 기법을 제안하며, 9가지 작업 유형을 포함하는 23,000개의 RLVR 샘플 데이터셋을 공개했어요.
Qwen3-30B-A3B 모델은 공개 데이터셋만으로 QwenLong-L1.5보다 뛰어난 성능을 보였고, DeepSeek-R1-0528 및 Qwen3-235B-A22B-Thinking-2507과 견줄 만한 장문 컨텍스트 성능을 달성했어요. TMN-Reweight는 작업 수준 평균 정규화와 난이도 적응형 가중치를 결합하여 이기종 보상을 해결하고, 일반적인 성능을 향상시켰어요.
연구진은 기능 중심 데이터 구축을 통해 다양한 작업 유형을 커버하고, TMN-Reweight 기법을 통해 이기종 작업 최적화 문제를 해결했어요.