산업용 로봇의 시각-언어 질문 답변(VLQA)을 위해 의미 중의성, 복잡한 환경, 전문 용어 문제를 해결하는 계층적 교차 모달 융합 모델이 제안되었습니다.
객체 감지, 다중 스케일 시각 인코딩, 구문 분석, 작업 인지 시맨틱 어텐션 등을 통합하여 시각과 언어 신호를 통합 추론 공간으로 만듭니다.
IVQA 및 RIF 벤치마크에서 검증 실험을 통해 기존 VLQA 벤치마크 대비 의미 정렬, Top-1 정확도, 모호하거나 절차적 작업 쿼리에 대한 강건성 향상이 확인되었습니다.