Pulse · AI 뉴스

PRISM: 언어 모델 활성화에서 명령어 집합 복구

arXiv cs.AI · 2026-06-08

연구진은 LLM 에이전트의 행동을 감시하기 위해 어떤 명령어가 영향을 미치는지 파악하는 것이 중요하다고 강조했어요. PRISM은 활성화 상태를 기반으로 에이전트의 명령어 집합을 복원하는 인터프리터로, 기존 방식보다 정확하게 보안 관련 목표를 파악할 수 있어요. 연구진은 judge-guided GRPO를 활용해 명령어 집합을 복원하는 과정을 개선했어요.

PRISM은 다양한 환경(정상, 제약, 프롬프트 주입, 숨겨진 목표)에서 기존 방식보다 뛰어난 성능을 보여줬으며, 특히 보안 관련 목표를 파악하는 데 효과적이에요. 기존 활성화-언어 방식은 명령어 집합을 직접 복원하지 못하는 한계가 있었어요. 연구진은 PRISM을 통해 LLM 에이전트의 행동을 보다 정확하게 이해하고 제어할 수 있을 것으로 기대하고 있어요.

PRISM은 frozen 모델의 hidden state를 해석하여 실행 중인 명령어, 제약, 금지 사항, 하위 목표를 정확하게 파악하는 데 도움을 줘요. 이는 LLM 에이전트의 안전성과 신뢰성을 높이는 데 기여할 수 있는 중요한 기술적 진보라고 할 수 있어요.

##LLM##보안##프롬프트주입##에이전트

매일 핵심 AI 소식을 한국어로, 빠르게

App Store 에서 Pulse 받기 앱에서 열기