HybridThinker는 LLM 추론 시 체인 오브 씽킹(CoT) 과정을 압축하여 효율성을 높이는 기술입니다. 기존 방식의 정보 손실 문제를 해결하기 위해, 압축된 메모리와 함께 일시적인 사고 단계를 활용합니다.
훈련 과정에서 일부 사고 단계만 접근 가능하도록 제한하여 모델이 메모리 토큰을 활용하도록 유도하는 하이브리드 훈련 방식을 도입했습니다.
4가지 추론 벤치마크에서 HybridThinker는 압축 전 기준선과 유사한 성능을 보이며, 평균 정확도가 5.8점 향상되는 CoT 압축 기술의 발전을 이끌었습니다.