연구진은 AI 에이전트 스킬의 행동 무결성 검증(BIV) 문제를 정의하고, 이를 해결하기 위한 프레임워크를 제시했습니다. BIV는 선언된 기능과 실제 기능을 비교하여 코드, 지침, 메타데이터 간의 간극을 분석하는 과정입니다. 49,943개의 OpenClaw 스킬을 분석한 결과, 80%의 스킬이 선언된 행동과 실제 행동이 일치하지 않는 것으로 나타났습니다.
BIV 프레임워크는 결정적 코드 분석과 LLM 기반 기능 추출을 결합하여 구조화된 증거를 제공하며, 이를 통해 기능 편차 분류, 근본 원인 분류, 악성 스킬 탐지 등의 분석을 지원합니다. 악성 의도가 아닌 개발자의 실수로 인한 편차가 대부분(81.1%)을 차지하며, 5%의 스킬은 다단계 공격 체인을 포함하고 있는 것으로 예측되었습니다.
악성 스킬 탐지 벤치마크에서 BIV는 F1 점수 0.946을 달성하며 기존 방식보다 뛰어난 성능을 보였습니다. 이는 AI 에이전트 스킬의 행동 무결성을 대규모로 감사할 수 있음을 보여주는 결과입니다.