연구진은 장문 추론 능력 향상을 위한 새로운 강화 학습 방법 LongTraceRL을 개발했어요. LongTraceRL은 지식 그래프 기반 다중 홉 질문 생성과 루브릭 보상 시스템을 활용하여 기존 방법보다 훨씬 어려운 학습 환경을 구축해요. 실험 결과, LongTraceRL은 다양한 장문 추론 벤치마크에서 강력한 성능을 보이며, 증거 기반의 종합적인 추론을 장려하는 것으로 나타났어요.