Pulse · AI 뉴스

QUACK: 다중 모드 사회 추론 에이전트의 지식 기반 언어 감사 프레임워크

QUACK · 2026-05-26

연구진이 LLM 에이전트의 사회적 추론 능력을 평가하는 QUACK 환경과 프레임워크를 공개했어요. QUACK은 게임 결과, 행동 경로, 발화 일관성 3단계로 에이전트의 언어 기반을 감사해요.

QUACK의 핵심인 Statement Verification Pipeline은 엔진 로그를 기반으로 각 에이전트의 실제 경로를 재구성하고, 공간 환각, 근거 없는 비난, 기만 붕괴, 언어-행동 불일치 등을 자동으로 감지해요.

최첨단 VLMs를 평가한 결과, 가장 강력한 에이전트조차 검증 가능한 공간적 주장의 15.1%를 환각하고, 절반 이상의 혐의를 근거 없이 내놓는 것으로 나타났어요.

##LLM##사회추론##감사##다중모드##QUACK
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기