연구진은 추론 능력 향상을 위해 마진 샤프닝이라는 새로운 방법을 제안했어요. 기존 방식은 모델이 생성한 전체 결과물을 기반으로 하지만, 연구진은 여러 개의 타당한 추론 경로를 통해 도달한 답을 중요하게 여겨 답 마진을 목표로 삼았어요. 이 방법은 수학 및 코딩 벤치마크에서 기존 방식보다 빠르면서도 더 뛰어난 성능을 보여줘요.
새로운 알고리즘은 답 마진을 효과적으로 샘플링하여 자기 일관성을 추론 시간 목표로 삼도록 설계됐어요. 이는 기존 방식이 최종 답변과 추론 과정을 섞어 놓는 단점을 보완하는 방식이에요.
연구진은 이 방법이 기존 방식보다 훨씬 빠르며, 추론 능력을 향상시키는 데 효과적이라고 밝혔어요.