연구진이 MLLM의 UI 기반 추론 능력을 평가하는 새로운 멀티모달 벤치마크 UXBench를 공개했어요.
UXBench는 2000개의 VQA 데이터 샘플로 구성되며, 레이아웃 관계, 시각적 계층 구조, 콘텐츠 일관성 등 8가지 UI 기반 문제 진단 과제를 포함해요.
UI-UX 모델은 UXBench에서 Claude Opus 4.5 Sonnet보다 높은 정확도(0.7963)를 기록하며 SOTA 성능을 달성했어요.
UI-UX는 Qwen3-VL-4B-Thinking을 기반으로 강화 학습을 통해 개발되었으며, 추론 과정에서 지각적 이해와 논리적 추론의 균형을 맞추는 보상 라우팅 메커니즘이 특징이에요.