연구팀은 LLM 에이전트의 실시간 워크플로우 처리 능력을 평가하기 위해 Claw-Eval-Live라는 새로운 라이브 벤치마크를 발표했어요. Claw-Eval-Live는 공개된 워크플로우 수요 신호를 기반으로 지속적으로 업데이트되는 신호 계층과 재현 가능한 릴리스 스냅샷으로 구성되어 있어요. 실험 결과, 현재 최고 성능 모델도 66.7%의 작업만 통과하며, HR, 관리, 다중 시스템 비즈니스 워크플로우가 주요 난제로 확인됐어요.