Pulse · AI 뉴스

VAKRA: 기업 환경 AI 에이전트 추론 및 도구 사용 능력 평가 벤치마크

Hugging Face · 2026-04-15

IBM 리서치에서 기업 환경과 유사한 워크플로우를 평가하는 새로운 벤치마크 VAKRA를 발표했습니다. VAKRA는 8,000개 이상의 API와 문서로 구성되어 있으며, 3~7단계의 추론 과정을 포함합니다.

VAKRA는 API 체이닝, 도구 선택, 멀티홉 추론 등 다양한 능력을 테스트하는 4가지 작업으로 구성되어 있으며, 각 작업은 1,500~2,000개 이상의 테스트 인스턴스를 포함합니다.

VAKRA는 기존 벤치마크와 달리 전체 실행 추적을 사용하여 에이전트의 신뢰성을 평가하며, 현재 모델들은 VAKRA에서 낮은 성능을 보이는 것으로 나타났습니다.

##AI에이전트##벤치마크##VAKRA##IBM##추론
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기