SteerSeg은 영상 추론 분할에서 어텐션 정렬 불일치를 주요 병목 현상으로 보고, 입력 레벨 컨디셔닝을 통해 어텐션을 스티어링하는 프레임워크입니다. 학습 가능한 소프트 프롬프트를 활용하여 어텐션 분포를 재구성하고, Chain-of-Thought (CoT) 프롬프팅을 통해 객체 간의 모호성을 해결합니다.
SteerSeg은 LVLM과 분할 모델의 파라미터를 고정하고 소프트 프롬프트만 학습하여 모델의 사전 학습된 추론 능력을 유지하면서 분할 성능을 향상시킵니다. Ref-YouTube-VOS 데이터셋으로만 학습했음에도 다양한 벤치마크에서 뛰어난 성능을 보입니다.
프로젝트 페이지는 https://steerseg.github.io 입니다.