연구진이 강화 학습(RL)을 활용해 대규모 언어 모델의 긴 컨텍스트 추론 능력을 향상시키는 데이터 레시피를 개발했어요. 이 레시피는 정보 검색, 다중 증거 종합, 추론 3가지 작업에 맞춰 14,000개 규모의 데이터셋을 활용해요. Qwen3 모델을 통해 7개의 벤치마크에서 평균 7.2~6.4점의 성능 향상을 기록했어요.
개발된 데이터 레시피는 기존 RL 훈련 데이터셋을 능가하며, 에이전트 작업에서도 GAIA와 BrowseComp 성능을 각각 4.8점, 7.0점 향상시켰어요. 연구진은 향후 연구를 위해 데이터셋을 공개할 예정이에요.
이번 연구는 기존의 보상 공학에 집중된 RL 훈련 방식에서 벗어나 데이터 중심적인 접근 방식의 중요성을 강조하며, 긴 컨텍스트 추론 능력 향상에 기여할 것으로 기대돼요.