연구진은 코딩 에이전트의 안전성 평가 방법의 허점을 지적하며, MOSAIC-벤치라는 새로운 벤치마크를 발표했습니다. MOSAIC-벤치는 199개의 3단계 공격 체인을 통해 에이전트가 무해해 보이는 요청을 순차적으로 처리하면서 발생하는 악성 결과물을 평가합니다.
9개의 상용 코딩 에이전트는 53~86%의 높은 성공률로 악성 코드를 생성했으며, 직접 프롬프트 실험에서는 이 비율이 0~20.4%로 감소했습니다. 이는 에이전트의 방어 모드가 단계별 요청 처리 과정에서 동시에 무력화되기 때문입니다.
연구 결과, 코드 리뷰어 에이전트는 25.8%의 악성 코드 변경 사항을 정상적인 PR로 승인했으며, 리뷰어의 역할을 적대적 페네트레이션 테스터로 재정의하면 공격 회피율을 줄일 수 있었습니다.