연구진은 시각 검색 LVLM의 능력 저하와 장기 추론 맥락 간섭 문제를 해결하기 위해 SeProD 프레임워크를 개발했어요.
SeProD는 사전 훈련 모델의 능력을 활용해 LVLM의 단일 단계 능력을 조율하고, 확률 기반 예언 샘플링을 통해 일관성 있는 다단계 추론을 유지해요.
실험 결과, SeProD는 4가지 시각 검색 벤치마크와 일반 VQA 벤치마크에서 여러 LVLM의 성능을 향상시켰으며, 추가적인 계산 비용 없이 병렬 예언 수용 메커니즘을 통해 구현됐어요.