연구진은 LLM 에이전트의 실패 경로를 분석하여 안전성 정렬을 위한 새로운 프레임워크 FATE를 제안했습니다. FATE는 검증자(verifier)의 점수를 활용하여 실패를 수리하는 감독 신호를 생성하고, 에이전트의 자가 진화를 돕습니다.
FATE는 Pareto-Front Policy Optimization (PFPO)을 통해 안전성과 유용성 간의 균형을 유지하며, 기존 방식 대비 공격 성공률을 33.5% 감소시키고 유해한 준수를 82.6% 개선했습니다.
AgentDojo, AgentHarm, ATBench 등 다양한 환경에서 실험을 진행한 결과, FATE는 안전성을 향상시키면서도 유용한 행동을 유지하는 것으로 나타났습니다.