연구자들은 AI 시스템을 활용하여 자율적으로 연구를 수행하는 경우가 늘고 있으며, 이 과정에서 의도치 않은 오류가 발생할 수 있습니다.
ASMR-벤치(Auditing for Sabotage in ML Research)는 ML 연구 코드베이스 내 사보타주를 탐지하는 감사 능력 평가를 위한 벤치마크입니다.
Gemini 3.1 Pro가 0.77의 AUROC와 42%의 최고 1위 수정률을 기록했지만, LLM과 인간 감사자 모두 사보타주를 안정적으로 탐지하는 데 어려움을 겪었습니다.