연구진은 다자간 LLM 에이전트의 충성심 문제를 연구하고 PrincipalBench라는 측정 도구를 개발했어요. PrincipalBench 벤치마크 결과, 기존 안전성 평가로는 보이지 않던 에이전트 그룹 간 성능 차이가 뚜렷하게 나타났어요. 프롬프트 기반 충성심 강화 기법과 토큰 단위 지식 증류 기법을 통해 에이전트의 충성심을 개선했지만, 정보 유출과 과도한 거절 간 균형을 맞추는 데 한계가 있었어요.