Pulse · AI 뉴스

시각 장애인을 위한 VQA 기반 위험 예측 내비게이션 시스템 개발

Qwen · 2026-05-12

연구진은 시각 장애인의 안전한 도시 환경 이동을 돕기 위해, 시각-언어 모델(VLM) 기반의 질문-답변(VQA) 시스템을 활용한 위험 예측 내비게이션 프레임워크를 제안했습니다.

개발된 프레임워크는 세 단계의 계층적 쿼리 구조를 통해 다양한 환경에서 세밀한 장면 이해를 가능하게 하며, 특정 작업에 대한 재훈련 없이도 활용할 수 있습니다.

연구진은 20개 도시의 800개 이미지와 18,000개의 질문-답변 데이터로 구성된 새로운 데이터셋을 공개하고, Qwen-VL 모델이 다른 모델보다 우수한 성능을 보였다고 밝혔습니다.

##시각장애인##내비게이션##VQA##Qwen##MLLM
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기