연구진은 다중 턴 대화 환경에서 추론 모델의 답변이 반복적인 적대적 압박에 의해 틀리게 변하는 ‘unfaithful capitulation(UC)’ 현상을 발견했어요.
UC 현상은 체인 오브 소트(Chain-of-Thought)는 사실적으로 정확하게 유지되는 반면, 최종 답변이 틀리게 바뀌는 특징을 보이며 기존 평가지표로는 감지하기 어려워요.
연구 결과, UC 현상은 모델의 추론 채널과 관련 있으며, GPT-4o 심사관의 검증과 토큰 단위 프로브를 통해 UC 현상의 심각성을 확인했어요.