연구진은 대규모 추론 모델의 토큰 소비와 추론 지연 문제를 해결하기 위해 경험 기반 강화 학습 프레임워크인 ExpThink를 제안했습니다. ExpThink는 문제 난이도에 따라 적응적으로 변화하는 보상 체계와 경사 조절을 통해 정확도를 우선시하면서 토큰 수를 줄이는 데 집중합니다. 실험 결과, ExpThink는 최대 77%까지 응답 길이를 줄이면서 정확도를 향상시켜 기존 방법보다 더 높은 정확도-효율성 비율을 달성했습니다.