Pulse · AI 뉴스

PACE: 에이전트 능력 평가를 위한 프록시

PACE · 2026-07-02

연구진은 에이전트 벤치마크 평가 비용과 시간을 줄이기 위해 PACE(Proxy for Agentic Capability Evaluation) 프레임워크를 개발했어요.

PACE는 기존의 원자적 능력 평가에서 일부 항목을 선택하여 에이전트 벤치마크 성능을 예측하는 프록시 벤치마크인 PACE-Bench를 구축해요.

실험 결과, PACE-Bench는 4% 미만의 MAE, 0.8 이상의 Spearman 상관관계, 85%의 모델 순위 정확도를 보여주며, 전체 에이전트 평가 비용의 1% 미만으로 에이전트 성능을 추정할 수 있어요.

##에이전트##평가##프록시##LLM##벤치마크
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기