연구진은 텍스트, 이미지, SVG 코드를 통합된 임베딩 공간에 매핑하는 훈련 없는 다중 모드 임베딩 프레임워크를 제안했어요. mEOL(Multimodal Explicit One-word Limitation)은 MLLM이 다중 모드 입력을 단일 토큰으로 요약하도록 지시하여 간결한 의미론적 임베딩을 생성하는 핵심 구성 요소예요. 연구 결과, 프롬프트 수준 제어가 구조 인식 다중 모드 검색을 위한 학습 기반 방식의 효과적인 대안임을 보여주었어요.