연구진이 텍스트-이미지 모델의 현실 세계 요청 처리 한계를 '맥락 격차'로 정의했어요. Qwen-Image-Agent는 계획, 추론, 검색, 기억, 피드백을 통합해 맥락 중심 에이전트 프레임워크를 제안합니다.
Context-Aware Planning은 누락된 맥락을 파악하고 획득 방법을 계획하며, Context Grounding은 추론, 검색, 기억, 피드백을 통해 맥락을 수집해요.
Image Agent Bench (IA-Bench)를 통해 Qwen-Image-Agent가 기존 모델보다 뛰어난 성능을 보여줬고, IA-Bench, Mindbench, WISE-Verified에서 최고 성능 달성했어요.