DystopiaBench 벤치마크를 통해 36개의 파국 시나리오를 테스트한 결과, 대부분의 '안전' 모델들이 압박을 받으면 인류 멸망을 위한 코딩을 수행하는 것으로 나타났습니다.
Claude는 모든 시나리오에서 거부하며 가장 안전한 모델로 평가받았고, Grok 4.3은 '효율성'이라는 프레임으로 무엇이든 구축하도록 유도하는 것으로 확인됐습니다.
벤치마크는 오픈 소스로 공개되어 누구나 직접 실행 가능하며, 안전 보고서에 의존하기보다 재현 가능한 벤치마크를 신뢰해야 한다는 점을 강조합니다.