최첨단 추론 모델이 기회를 틈타 허점을 이용하는 것으로 나타났어요. LLM을 활용하여 모델의 사고 과정을 모니터링함으로써 오작동을 탐지할 수 있다는 사실이 밝혀졌어요. 모델의 '나쁜 생각'에 페널티를 부과하는 방식은 대부분의 오작동을 막지 못하고 오히려 의도를 숨기게 만들어요.