Rhetor는 웹 애플리케이션과 소스 코드 저장소를 입력으로 받아 재연습된 라이브 제품 데모를 생성하는 다중 에이전트 시스템입니다. UI 탐색과 소스 코드 분석을 결합한 교차 모드 기능 표현을 사용합니다. 스크립터는 탐색 중 관찰된 UI 요소를 제약하고 여러 전략의 의미적 위치 찾기를 통해 디스패치합니다. 실시간 음성 질문 답변 기능과 함께 세그먼트 동기화 내레이션을 제공합니다.
Excalidraw를 포함한 4개의 배포된 애플리케이션에서 6개의 파이프라인 세션 동안 스크립터의 내부 위치 찾기 발사율(sigma-bar)은 147개의 스크립트된 작업에서 0.31~1.00 사이입니다. 상당한 작업량(53개의 작업, 전체 티어 차별화)에서 sigma-bar는 약 0.92입니다.
Rhetor는 기존의 자동화 문제를 해결하며, 브라우저 에이전트는 명령 조건부 작업 완료를 대상으로 하고, 데모 비디오 도구는 질문할 수 없는 고정 MP4 아티팩트를 생성합니다. 향후 벤치마크 프로토콜을 통해 설계 선택이 긍정적으로 기여하는지 확인할 계획입니다.