연구진은 AI 에이전트의 복잡한 과정을 평가하는 새로운 프레임워크를 개발했어요. 이 프레임워크는 에이전트 전체의 진단과 개별 단계별 평가를 결합하여 실패 원인을 정확히 파악합니다. TRAIL 벤치마크에서 기존 평가 방식보다 F1 점수 38%, 위치 정확도 3.5배, 통합 정확도 12.5배 향상된 결과를 보여줬어요.