Pulse · AI 뉴스

객체 지칭 기반 스캔패스 예측을 위한 시각-언어 모델

ScanVLA · 2026-04-22

연구에서는 객체 지칭 기반 스캔패스 예측(ORSP) 모델을 제안하며, 이는 언어적 설명을 통해 특정 대상 객체를 시각적 장면에서 찾을 때 인간의 시선 이동 경로를 예측하는 것을 목표로 합니다.

ScanVLA 모델은 시각-언어 모델(VLM)을 활용하여 시각 및 언어적 특징을 융합하고, 세분화된 위치 정보를 향상시키기 위해 히스토리 강화 스캔패스 디코더(HESD)와 고정된 세그멘테이션 LoRA를 도입했습니다.

실험 결과, ScanVLA 모델은 기존 스캔패스 예측 방법보다 뛰어난 성능을 보이며, 객체 지칭 환경에서 효과적으로 작동하는 것을 입증했습니다.

##스캔패스##시각언어모델##객체지칭
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기