연구진이 GPT-OSS, Qwen, Olmo, Phi 등 주요 오픈 소스 추론 모델을 분석한 결과, '생각하는 토큰'이 실제 안전성을 높이는 데 기여하지 못한다는 사실을 밝혀냈어요.
모델의 첫 번째 토큰만으로도 최종 거부/준수 결과를 높은 정확도로 예측할 수 있으며, 이후 '생각' 과정은 표면적인 것일 뿐, 실제로는 답변 방향이 일찍 결정돼요.
기존 안전 강화 방법은 오히려 과도한 거부를 유발하고, 실제 안전에 도움이 되는 '생각' 신호를 억제하는 부작용이 있어요.