AliyunConsoleAgent는 실제 클라우드 콘솔에서 자동화된 문서 검증을 위한 웹 에이전트 프레임워크입니다.
AliyunConsoleAgent는 선행 모델 트랙션을 증류하여 지도 학습(SFT)을 진행하고, 그룹 상대 정책 최적화(GRPO) 및 이중 채널 결과 보상 모델을 활용하여 강화 학습을 수행합니다.
AliyunConsoleAgent-32B는 278개 작업 벤치마크에서 63.52%의 성공률을 달성하여 기준 모델보다 20.24% 향상되었으며, 최고 선행 모델과의 격차를 1.82pp까지 좁혔습니다.