Pulse · AI 뉴스

PACE: LLM 에이전트 능력 평가를 위한 프록시 벤치마크

PACE · 2026-07-02

연구진은 LLM 에이전트 평가 비용과 시간을 줄이기 위해 PACE(Proxy for Agentic Capability Evaluation) 프레임워크를 개발했어요. PACE는 기존의 원자적 능력 평가에서 일부 항목을 선택하여 에이전트 벤치마크 성능을 예측하는 프록시 벤치마크를 구축해요.

연구 결과, PACE-Bench는 에이전트 벤치마크 점수를 4% 미만의 MAE, 0.8 이상의 Spearman 상관계수, 85%의 모델 순위 정확도로 예측했어요. 이는 전체 에이전트 평가 비용의 1% 미만의 비용으로 달성된 결과예요.

PACE는 모델 개발, 선택, 라우팅 과정에서 에이전트 성능을 신뢰성 있게 추정할 수 있도록 지원하며, 에이전트 평가에 필요한 시간과 비용을 크게 절감할 수 있어요.

연구진은 PACE를 통해 각 에이전트 벤치마크가 요구하는 고유한 기술을 분석하고, 에이전트 능력 평가의 효율성을 높이는 방법을 제시했어요.

##LLM##에이전트##벤치마크##평가##PACE
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기