본 논문은 LLM을 보완하는 기술 패키지인 '스킬'의 신뢰성 검증 방안을 제시합니다. 스킬은 기본적으로 신뢰할 수 없는 코드로 간주되어야 하며, 런타임은 이를 검증해야 합니다. 검증되지 않은 스킬은 인간의 개입을 거쳐야 하며, 이는 운영 지속 가능성을 위해 필수적입니다.
연구진은 스킬의 신뢰 수준을 명시하는 신뢰 증명 방식과, 후보 검증 절차가 충족해야 하는 양방향 정확성 기준을 제안합니다. 또한, 적대적 환경에서 검증 절차를 평가하는 방법론을 제시했습니다.
본 논문의 기여는 특정 하드웨어나 모델에 종속되지 않으며, 기존 인프라를 활용하여 스킬 검증 시스템을 구축할 수 있다는 점입니다.