연구진은 기존 MLLM 기반 멀티모달 검색 모델의 '입자맹목' 문제를 해결하기 위해 ELVA 프레임워크를 제안했어요. ELVA는 강화 학습과 검증 가능한 보상(RLVR)을 결합하여 긍정 샘플과 부정 샘플 간의 유사도 차이를 극대화하고, 부정 샘플의 중요도에 따라 다르게 학습해요. 새로운 벤치마크 MRBench에서 ELVA는 기존 모델보다 13.1% 성능 향상을 보여 입자맹목 완화에 효과적임을 입증했어요.