Pulse · AI 뉴스

QUACK: 다중 모드 사회 추론 에이전트의 지식 기반 언어 감사 프레임워크

QUACK · 2026-05-26

연구진이 LLM 에이전트의 사회적 추론 능력을 평가하는 환경 QUACK을 공개했어요. QUACK은 게임 결과, 행동 경로, 발화 일관성 3단계로 에이전트의 언어 기반을 감사하는 프레임워크입니다.

QUACK의 핵심 기능은 Statement Verification Pipeline으로, 엔진 로그를 기반으로 각 에이전트의 실제 경로를 재구성하고 발화 내용과 비교하여 오류를 자동으로 식별합니다.

평가 결과, 최첨단 VLM조차도 검증 가능한 공간적 주장의 15.1%를 환각하고, 근거 없는 추격을 50% 이상 하는 것으로 나타났습니다. QUACK 관련 자료는 GitHub에서 확인할 수 있습니다.

##LLM##사회추론##감사##다중모드##QUACK
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기