LOCUS는 멀티모달 LLM의 미세한 시각적 인식 능력 부족 문제를 해결하기 위한 훈련 프레임워크입니다. 시각적 컨텍스트 로터 현상을 해결하기 위해 로컬 크롭을 시각적 단서로 활용하여 전체 이미지 내 위치를 복구하도록 훈련합니다. 훈련 과정에서 IoU 기반 보상을 사용하며, 표준 이미지-질문 추론 인터페이스는 변경하지 않습니다.
미세한 시각적 인식, 환각, 일반적인 이해, 추론 벤치마크에서 실험 결과, LOCUS는 위치 정보와 관련된 시각적 이해를 향상시키면서도 기존 능력을 유지합니다. 어텐션 분석 결과, 작업과 관련된 시각적 증거 영역에 대한 집중도가 높아졌습니다.
LOCUS는 훈련 시 시각적 단서 검색을 통해 내부적으로 미세한 증거 선택을 가능하게 하는 효과적인 방법을 제시합니다.