연구진이 LLM의 장기 추론 능력 향상을 위한 새로운 강화 학습 프레임워크 'ReSum'을 제안했어요. ReSum은 LLM이 스스로 추론 과정을 요약하고 정리하여 불필요하게 긴 추론 과정을 줄이고 일관성을 높이는 방식이에요. 실험 결과, ReSum은 성능을 평균 4% 향상시키고 추론 과정 길이를 18.6% 단축하는 효과를 보였어요.