연구진은 LLM이 복잡한 맥락에서 핵심 증거를 식별하는 데 어려움을 겪는 문제를 해결하기 위해 ContextRL이라는 새로운 RL 방법을 제안했어요. ContextRL은 모델에게 질문, 답변, 유사한 맥락 두 개를 제시하고, 질문-답변을 뒷받침하는 맥락을 선택하도록 훈련하여 미세한 수준의 근거를 장려해요. 코딩 에이전트와 멀티모달 추론 분야에서 평균 2.2%의 성능 향상을 달성했으며, 기존 데이터 증강 방법보다 효과적이었어요.