Pulse · AI 뉴스

HLL: 에이전트, 인간의 마지막 검증선을 넘을 수 있을까?

HLL · 2026-06-02

연구진은 멀티모달 에이전트가 CAPTCHA 검증을 통해 인간을 대체할 수 있는지 평가하는 벤치마크 'HLL'을 공개했어요.

HLL은 다양한 CAPTCHA 상호작용과 현실적인 스트레스를 적용하여 에이전트의 성능을 테스트하며, 현재 에이전트는 여전히 취약한 모습을 보였어요.

HLL은 에이전트의 위치 파악, 행동 교정, 상태 추적, 프로세스 일관성 등에서 부족함을 드러내며, 인간 대체 가능성을 측정하는 테스트베드로 활용될 수 있어요.

##에이전트##CAPTCHA##벤치마크##HLL##멀티모달

매일 핵심 AI 소식을 한국어로, 빠르게