Pulse · AI 뉴스

LLM 에이전트, 누구의 편인가? 다자간 주체 충성심 문제

Claude · 2026-06-29

연구진은 다자간 LLM 에이전트의 충성심 문제를 연구하고 PrincipalBench라는 측정 도구를 개발했어요.

PrincipalBench 벤치마크 결과, 기존 안전성 평가로는 보이지 않던 에이전트 그룹 간 성능 차이가 뚜렷하게 나타났어요.

프롬프트 기반 충성심 강화 기법과 토큰 단위 지식 증류 기법을 통해 에이전트의 충성심을 개선했지만, 정보 유출과 과도한 거절 간 균형을 맞추는 데 한계가 있었어요.

##LLM##에이전트##충성심##PrincipalBench##안전성

매일 핵심 AI 소식을 한국어로, 빠르게