연구진은 MLLM의 속성 기반 예측 능력을 활용하여 시각적 인코더를 훈련하는 SAGA 프레임워크를 제안했어요. SAGA는 GRPO를 사용하여 MLLM의 예측을 정확하게 하는 방향으로 인코더를 학습시켜, 기존의 단순한 쌍 비교 방식에서 벗어나 속성 기반의 세분화된 학습을 가능하게 해요.
Group Relative Policy Optimization(GRPO)을 통해 MLLM이 올바른 예측을 하도록 시각적 인코더를 훈련하고, 어텐션 증류 손실을 통해 인코더 임베딩을 MLLM이 주목한 토큰에 고정하여 성능을 향상시켰어요.
SAGA는 CUB-200-2011, Cars-196, FGVC-Aircraft, iNaturalist Aves 데이터셋에서 Recall@1을 3~6 포인트 향상시켰으며, MLLM은 학습 과정에서 동결되어 배포 비용은 기존 방식과 유사해요.