Pulse · AI 뉴스

Claw-Eval-Live: 변화하는 실시간 워크플로우를 위한 라이브 에이전트 벤치마크

Claw-Eval-Live · 2026-05-01

연구팀은 LLM 에이전트의 실시간 워크플로우 처리 능력을 평가하기 위해 Claw-Eval-Live라는 새로운 라이브 벤치마크를 발표했어요.

Claw-Eval-Live는 공개된 워크플로우 수요 신호를 기반으로 지속적으로 업데이트되는 신호 계층과 재현 가능한 릴리스 스냅샷으로 구성되어 있어요.

실험 결과, 현재 최고 성능 모델도 66.7%의 작업만 통과하며, HR, 관리, 다중 시스템 비즈니스 워크플로우가 주요 난제로 확인됐어요.

##에이전트##벤치마크##워크플로우##LLM##평가
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기