LARE는 기존 시각 인코더의 주목 편향 문제를 해결하기 위해 저주의 영역을 명시적으로 모델링하는 프레임워크입니다. 이미지의 저주의 영역과 전체 이미지를 병렬로 인코딩하는 이중 인코딩 전략을 채택하여 더 다양하고 유용한 이미지 임베딩을 생성합니다.
저주의 영역 검색 성능을 엄격하게 평가하기 위해 COCO 및 Flickr30K에서 파생된 도전적인 데이터셋 Dense-Set을 소개했습니다. 이 데이터셋은 저주의 영역에 대한 풍부한 설명을 제공하기 위해 재작성되었습니다.
실험 결과, 제안된 프레임워크는 공유 잠재 공간 내에서 미묘한 비지배적인 시각적 단서를 보존하여 검색 성능을 향상시킵니다.