Pulse · AI 뉴스

AI 에이전트 스킬, 벤치마크 성능의 절반도 현실에서 안 나온다

GeekNews · 2026-04-16

UC Santa Barbara, MIT CSAIL, MIT-IBM Watson AI Lab 연구팀이 AI 에이전트의 스킬 활용 능력을 현실적으로 평가하는 연구를 진행했습니다.

연구팀은 34,198개의 스킬을 수집하여 테스트한 결과, 기존 벤치마크 성능의 절반 수준에도 미치지 못하는 것으로 나타났습니다.

##AI에이전트##벤치마크##스킬
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기