연구진이 제한된 데이터 환경에서 참조 표현 분할 성능을 높이는 Learning to Label 프레임워크를 제안했어요. 이 프레임워크는 이미지-텍스트 쌍을 활용해 스스로 학습하며, 초기 분할 제안과 텍스트 정보를 결합해 가이드 신호를 생성해요. 강화 학습을 통해 신뢰성 있는 가짜 레이블을 선택하고, 분할 모델과 가짜 레이블을 동시에 최적화하여 성능을 향상시켰어요.
RefCOCO, RefCOCO+, RefCOCOg 데이터셋에서 기존 방법보다 성능이 우수했으며, 일반화 능력도 입증되었어요. 이 프레임워크는 이미지와 텍스트 정보를 활용하여 스스로 학습하는 새로운 접근 방식을 제시해요.
이 프레임워크는 제한된 데이터 환경에서 이미지와 텍스트 간의 정확한 연관성을 파악하는 데 도움을 줄 수 있으며, 다양한 응용 분야에 활용될 수 있을 것으로 기대돼요.