연구진은 에이전트 평가의 단편화 문제를 해결하기 위해 개방적이고 에이전트 불문(agent-agnostic) 평가 인터페이스인 AAA(Agentified Agent Assessment)를 제안했어요.
AAA는 평가를 수행하는 평가 에이전트(judge agent)를 활용하고, A2A와 MCP 프로토콜을 통해 표준화된 방식으로 상호작용하며, 평가 로직과 에이전트 구현을 분리합니다.
연구진은 AAA의 구체적인 구현체인 AgentBeats를 통해 5가지 운영 모드를 제시하고, 298개의 평가 에이전트와 467개의 대상 에이전트가 참여한 대규모 오픈 경쟁과 코딩 에이전트 사례 연구를 통해 AAA의 효과를 검증했어요.