Pulse · AI 뉴스

멀티모달 LLM의 모바일 UX 평가 벤치마크 UXBench 발표

Qwen · 2026-06-11

연구진이 MLLM의 UI 기반 추론 능력을 평가하는 새로운 멀티모달 벤치마크 UXBench를 공개했어요.

UXBench는 2000개의 VQA 데이터 샘플로 구성되며, 레이아웃 관계, 시각적 계층 구조, 콘텐츠 일관성 등 8가지 UI 기반 문제 진단 과제를 포함해요.

UI-UX 모델은 UXBench에서 Claude Opus 4.5 Sonnet보다 높은 정확도(0.7963)를 기록하며 SOTA 성능을 달성했어요.

UI-UX는 Qwen3-VL-4B-Thinking을 기반으로 강화 학습을 통해 개발되었으며, 추론 과정에서 지각적 이해와 논리적 추론의 균형을 맞추는 보상 라우팅 메커니즘이 특징이에요.

##UXBench##MLLM##UI##Qwen##UI-UX
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기