연구진은 언어 모델이 불필요한 회피, 포기, 자기 모순 등의 행동을 반복하며 토큰을 낭비하는 '과도한 사고' 문제를 확인했어요. 과도한 사고는 답변 길이의 문제가 아니라, 잘못된 추론 과정에서 발생하는 경향이 있으며, 정확한 추론 과정보다 더 높은 비율로 나타나요. DASH(Drift Aware advantage SHaping)라는 새로운 방법을 통해 수학 벤치마크에서 정확도를 높이고 과도한 사고를 줄이는 데 성공했어요.