Pulse · AI 뉴스

멀티모달 LLM 기반 원격 감지 활동 분석을 위한 시공간적 이해

LLaVA-NeXT Mistral-7B · 2026-05-12

연구진은 건설 현장 데이터를 활용한 시공간적 분석을 위한 시각적 질의응답(VQA) 데이터셋 SMART-HC-VQA를 공개했습니다.

SMART-HC-VQA는 건설 현장 주석, 건설 유형, 시간 단계, 지리적 메타데이터를 자연어 질문-답변 형태로 변환하여 기존 데이터셋을 시간 연장된 자동 목표 인식(ATR) 및 VQA 챌린지로 재정의합니다.

연구진은 LLaVA-NeXT Mistral-7B 기반의 멀티 이미지 MLLM 훈련 프레임워크를 구현하여 여러 날짜의 이미지 입력을 받아들이고 메타데이터 기반 VQA 예시로 훈련했습니다.

##원격감지##VQA##LLM##시공간##데이터셋
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기