Pulse · AI 뉴스

내부 상태 탐침은 상황을 읽고 행동을 읽지 않는다: 사전 행동 불일치 감시를 위한 세 가지 부정적 결과

Qwen · 2026-06-30

연구진은 모델 내부의 탐침이 유해한 텍스트나 도구 사용을 생성하기 전에 식별할 수 있다면 에이전트 시스템을 감시하는 데 도움이 될 수 있는지 조사했어요.

Qwen2.5-Coder-32B-Instruct, Llama-3.1-8B-Instruct, Gemma-3-27B-IT 모델을 활용해 사전 행동 감시로서의 유효성을 검증했지만, 일반화 또는 특정성 검증에서 한계가 드러났어요.

Qwen 모델은 fine-tune과 base 모델을 완벽하게 구분하지만, 실제 사전 어시스턴트 턴에서는 불일치 상황을 감지하지 못했고, Llama 모델은 프롬프트 도메인을 거의 완벽하게 디코딩했지만 미래 행동 예측 성능은 미미했어요.

Gemma 모델의 감정 투영은 의미론적으로 의미가 있지만, 최소한의 차이에도 불구하고 초기 상태가 구별되지 않았고, 관련 없는 학습 방향에 대한 특정성 약화 현상이 관찰돼 사전 행동 감시로서의 효용성이 제한적임을 확인했어요.

##LLM##연구##불일치

매일 핵심 AI 소식을 한국어로, 빠르게