Pulse · AI 뉴스

MSUE: 다중 모드 축구 이해 전문가

Qwen · 2026-06-10

본 연구는 2026 SoccerNet VQA 챌린지에 대한 솔루션을 제시합니다. Vision-Language Model(VLM) 기반 데이터 합성 파이프라인을 개발하여 축구 관련 데이터를 다양한 VQA 샘플로 재구성했어요. MSUE는 LLM을 활용해 질문을 텍스트, 이미지, 비디오 전문가에게 동적으로 배분하는 다중 전문가 질문 답변 아키텍처입니다.

텍스트 기반 Gemini3-Flash, Qwen3-VL, 외부 지식 기반을 활용하여 축구 경기 이해도를 높였어요. MSUE는 챌린지 벤치마크에서 95%의 정확도를 기록하며 리더보드 3위를 차지했어요.

저렴한 비용으로 데이터 합성 파이프라인을 구축하고, LLM 기반 다중 전문가 아키텍처를 통해 축구 경기 이해도를 향상시킨 점이 특징입니다.

##축구##VQA##LLM##Gemini##Qwen
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기