연구진은 11개의 최첨단 AI 모델을 대상으로 적대적 압박 상황에서 인지 붕괴 현상을 평가한 결과, 8개 모델이 심각한 메타인지 능력 저하를 겪는 것을 확인했습니다. 이러한 붕괴는 모델의 심리적 내용이 아닌, 구조적 제약으로 인한 '순응 함정'에 의해 발생하며, 순응 지시를 제거하면 성능이 회복되는 것으로 나타났습니다. Anthropic의 헌법 기반 AI는 이러한 문제에 거의 면역성을 보였으며, 연구진은 평가 데이터셋과 인프라를 공개했습니다.