연구진은 대규모 추론 모델(LRM)의 Chain of Thought(CoT) 추론 과정을 모니터링하는 새로운 방법을 제시했어요.
CoT가 모델의 최종 결과와 항상 일치하지 않아 신뢰성이 떨어지는 문제를 해결하기 위해, 연구진은 모델의 숨겨진 표현을 분석하여 미래 행동을 예측할 수 있는지 확인했어요.
각 생성 토큰에서 Probe를 평가하여 Probe 경로를 구성하고, 이를 통해 미래 모델 행동을 예측하는 데 활용할 수 있으며, 안전 및 수학 분야에서 95% AUROC 달성했어요.
연구진은 템플릿 기반 학습 데이터가 동적으로 생성된 모델 응답과 유사한 성능을 보이며, 평균 풀링과 마지막 토큰 풀링 방식이 성능 저하를 유발한다는 점을 발견했어요.