연구진이 LLM 제어 개입 인지 능력을 측정하는 벤치마크 CIAware-Bench를 공개했어요. 이 벤치마크는 에세이 작성, BigCodeBench, Bash Arena, SHADE-Arena 등 4가지 작업 영역에서 모델의 경로를 수정하는 제어 개입을 감지하는지 테스트해요. 11개의 최첨단 모델을 평가한 결과, 기본 설정에서는 낮은 수준의 제어 개입 인지 능력을 보였으며, 모델 및 작업 영역에 따라 큰 차이를 보였어요.