ROGLE(Robust Global-Local Embedding)은 텍스트 기반 인물 검색 모델의 성능을 높이는 새로운 프레임워크입니다. 기존 CLIP 기반 모델의 한계를 극복하기 위해 자동 영역-문장 매칭(RSM) 전략을 도입하여 비용이 많이 드는 수동 어노테이션 없이도 정밀한 영역 수준의 감독을 가능하게 합니다.
ROGLE는 글로벌 대비 학습과 영역 수준의 로컬 정렬을 결합하는 다중 입자 학습 전략을 사용하며, P-VLG 벤치마크에서 기존 모델보다 뛰어난 성능을 보였습니다.
P-VLG 벤치마크는 10만 개 이상의 어노테이션 영역과 풍부한 긴 형식의 캡션을 포함하여 글로벌 및 로컬 평가 프로토콜을 모두 지원하는 최초의 텍스트 기반 인물 검색 벤치마크입니다.