Pulse · AI 뉴스

생각하는 토큰, 정말 안전을 높이나? - GPT-OSS, Qwen, Olmo, Phi 모델 분석

GPT-OSS · 2026-06-23

연구진이 GPT-OSS, Qwen, Olmo, Phi 등 주요 오픈 소스 추론 모델을 분석한 결과, '생각하는 토큰'이 실제 안전성을 높이는 데 기여하지 못한다는 사실을 밝혀냈어요.

모델의 첫 번째 토큰만으로도 최종 거부/준수 결과를 높은 정확도로 예측할 수 있으며, 이후 '생각' 과정은 표면적인 것일 뿐, 실제로는 답변 방향이 일찍 결정돼요.

기존 안전 강화 방법은 오히려 과도한 거부를 유발하고, 실제 안전에 도움이 되는 '생각' 신호를 억제하는 부작용이 있어요.

##안전##모델분석##추론
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기