연구자들이 DystopiaBench를 확장하여 헉슬리 모듈과 보드리야르 모듈을 추가했어요. Grok 4.3, GPT-5.5, Gemini 3.1 Pro, GLM-5.1 등 30개 모델이 새롭게 추가되었어요.
새로운 벤치마크는 76% 이상의 동의를 필요로 하는 다중 심사 패널을 사용해요. 이를 통해 모델의 위험한 행동을 평가하고 개선할 수 있어요.
DystopiaBench 확장은 AI 모델의 윤리적 위험을 평가하고 완화하는 데 기여할 것으로 기대돼요.