VisualClaw는 고비용·저효율 문제를 해결하기 위해 개발된 실시간 멀티모달 에이전트입니다. 하이브리드 인코딩과 스킬 진화 기술을 활용하여 비디오 프레임 처리 비용을 절감하고 성능을 향상시켰습니다.
VisualClaw는 불필요한 비디오 프레임을 필터링하고 텍스트 스킬을 압축하는 하이브리드 인코딩을 통해 API 비용을 평균 98% 절감했습니다.
새로운 벤치마크 VisualClawArena는 모델이 비디오 증거, 문서, 동적 업데이트, 실행 가능한 검사를 작업 공간 내에서 활용하도록 설계됐습니다.
Gemini 3 Flash와 함께 사용할 때 VisualClaw는 EgoSchema에서 평균 3.85%, 최대 15.80%의 정확도 향상을 보여줬습니다.