Pulse · AI 뉴스

에이전트의 한계 시험: GauntletBench 벤치마크 공개

GauntletBench · 2026-06-25

연구진이 다양한 전문 분야에서 에이전트의 일반화 능력을 평가하는 웹 기반 벤치마크 GauntletBench를 공개했어요.

GauntletBench는 시간 인식, 그래픽 이해, 3D 추론 등 기존 벤치마크에서 간과된 3가지 능력에 집중하고, 비디오 편집기, 워크플로우 빌더 등 5가지 전문 분야를 다룹니다.

최첨단 에이전트조차 GauntletBench에서 19.1%의 성공률에 그쳐 인간 수준의 성능에 미치지 못하며, 인간은 80% 이상의 성공률을 보였습니다.

##에이전트##벤치마크##AI평가
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기