연구진이 LLM 공격 커버리지를 감사할 수 있는 프레임워크를 공개했어요. 932개의 arXiv 보안 연구에서 추출한 507개의 공격 유형을 기반으로 4x6 매트릭스를 구축했어요. 현재 공개된 6개의 벤치마크는 전체 매트릭스의 25% 미만을 커버하며, 서비스 중단 및 모델 내부와 같은 STRIDE 위협 카테고리는 평가되지 않고 있어요.
연구진은 LLM 공격 그룹의 명칭 단편화가 심각하며, 안전 및 정렬 우회에 집중되어 있다는 사실을 발견했어요. 새로운 벤치마크가 등장함에 따라 커버리지 격차가 좁혀지고 있는지 추적할 수 있도록 확장 가능한 자료를 공개했어요.