Pulse · AI 뉴스

LLM의 숨겨진 기만 해독: 활동 설명기를 통한 기만 감사

STATEWITNESS · 2026-06-16

연구진이 LLM의 기만 행위를 감사하기 위한 새로운 도구 STATEWITNESS를 개발했어요. STATEWITNESS는 LLM의 숨겨진 상태를 분석하여 자연어 질의응답이나 구조화된 보고서를 생성합니다. 두 개의 추론 LLM에 대한 평가에서 기존 방법보다 성능이 크게 향상된 것으로 나타났어요.

STATEWITNESS는 기존 블랙박스 텍스트 모니터보다 11.6%, 활성화 프로브 기준선보다 25% 높은 0.916의 평균 AUROC를 달성했어요. 단순한 임계값 앙상블과 결합하여 기만적인 예시를 놓치는 것을 줄일 수 있습니다.

STATEWITNESS는 토큰 또는 문장 수준의 증거 추적을 제공하여 인간이 검토할 수 있는 인터페이스를 제공하며, 더 넓은 해석 가능성 및 정렬 도구의 구성 요소가 될 수 있습니다.

##LLM##기만##해석가능성##STATEWITNESS
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기