Agentic CLEAR는 LLM 에이전트의 행동을 시스템, 추적, 노드 세 단계로 분석하는 자동 평가 프레임워크입니다. 기존 도구의 한계를 극복하고, 다양한 환경에 맞춰 동적으로 평가가 가능하도록 설계됐습니다. 실험 결과, Agentic CLEAR는 인간 평가와 높은 상관관계를 보이며, 작업 성공률 예측 능력도 입증했습니다.
Agentic CLEAR는 기존 관측성 레이어를 넘어서 통합이 용이하며, 직관적인 UI를 통해 누구나 쉽게 에이전트 평가를 수행할 수 있습니다. 4개의 벤치마크, 7개의 에이전트 설정, 수만 건의 LLM 호출을 통해 성능을 검증했습니다.
Agentic CLEAR는 텍스트 기반 인사이트를 제공하며, 데이터 기반의 고품질 피드백을 생성하여 에이전트 개발 및 개선에 기여할 것으로 기대됩니다.