WebRISE는 MLLM이 생성한 웹 아티팩트의 상호작용을 평가하는 새로운 벤치마크로, 사용자의 요구사항에 따른 상태 변화를 반영합니다.
WebRISE는 442개의 작업과 5가지 입력 방식(텍스트, 마크다운, 스케치, 이미지, 비디오)을 포함하며, 5,495개의 전환과 5,271개의 요구사항 검사를 수행합니다.
14개의 MLLM 모델을 테스트한 결과, 최고 성능 모델도 전환 유효성 65.6%, 요구사항 커버리지 66.3%에 그쳤으며, 시각적 품질이 동작과 반드시 일치하지 않는다는 점이 확인됐습니다.