연구진은 멀티모달 지식 기반 시각 질의응답(KB-VQA) 시스템에서 정보 활용 위치 의존성을 조사했어요.
기존 텍스트 기반 LLM의 '중간 정보 손실' 현상과 달리, 멀티모달 KB-VQA에서는 처음에 제시된 정보가 더 중요하게 활용되는 '우선순위 편향'(Lost at the End)이 나타났어요.
3개의 오픈소스 VLM 리더와 2개의 KB-VQA 벤치마크를 활용한 실험 결과, 처음에 제시된 정보가 마지막 정보보다 16~26점 더 높은 성능을 보였으며, 이는 프롬프트 슬롯 0에 집중되는 경향 때문으로 분석됐어요.