연구진은 LLM의 불필요한 토큰 소모를 줄이는 새로운 추론 파이프라인 'CopT'를 제안했어요. CopT는 기존 CoT 방식과 달리, 먼저 초안 답변을 생성한 후 온정책 사고를 통해 답변을 검토하고 수정하는 방식으로 작동해요. 연속적인 임베딩을 대비적 검증기로 활용하여 답변의 신뢰도를 평가하고, 필요시 추가적인 사고를 수행하여 최대 23% 정확도 향상 및 최대 57% 토큰 사용량 감소 효과를 거두었어요.