Pulse · AI 뉴스

정책 오류 복구: 견고한 GUI 에이전트를 위한 벤치마킹 및 경로 합성

RoTS · 2026-05-28

연구진이 GUI 에이전트의 오류 복구 능력을 평가하고 개선하기 위해 GUI-RobustEval과 Robustness-driven Trajectory Synthesis(RoTS)를 발표했어요. GUI-RobustEval은 1,216개의 실행 가능한 테스트 케이스로 구성되어 다양한 오류 모드에 대한 복구 능력을 측정해요. RoTS는 트리 기반 파이프라인을 통해 80만 개의 고품질 데이터를 합성하여 에이전트의 오류 복구 능력을 향상시켰어요.

RoTS-32B 모델은 GUI-RobustEval과 OSWorld 벤치마크에서 뛰어난 성능을 보여줬으며, OSWorld에서 47.4%의 성공률과 33.8%의 All-Pass@4 점수를 기록했어요.

RoTS 관련 코드는 GitHub에서 공개됐으며, GUI 에이전트의 오류 복구 능력 향상을 위한 연구 결과로 평가받고 있어요.

##GUI##에이전트##오류복구##벤치마크##RoTS
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기