연구진은 대규모 추론 모델(LRM)의 Chain of Thought(CoT) 추론 과정을 모니터링하는 새로운 방법을 제시했어요. CoT가 모델의 최종 결과와 항상 일치하지 않아 신뢰성이 떨어지는 문제를 해결하기 위해 모델의 숨겨진 표현을 분석했어요.
각 토큰이 생성될 때마다 probe를 평가하여 probe 경로를 구축하고, 개념 확률의 지속적인 변화를 관찰했어요. 이를 통해 모델의 미래 행동을 예측하는 데 있어 전체 경로를 분석하는 것이 단일 예측보다 효과적임을 확인했어요.
연구 결과, trajectory 특징은 과제별 역학을 인코딩하여 결과 분리도를 향상시키며, 템플릿 기반 학습 데이터가 동적으로 생성된 모델 응답과 유사한 성능을 보여주고, max-pooling 방식이 95% AUROC를 달성하는 등 중요한 방법론적 통찰력을 얻었어요.