MultiToP는 비디오 LLM의 환각 현상을 줄이는 시각 토큰 패치 프레임워크입니다. 시각 토큰 교체 분포를 예측하여 신뢰할 수 없는 토큰을 동적 글로벌 패치 토큰으로 대체합니다. 정보 기반 순위 교정 기법을 활용하여 토큰 교체 훈련을 효과적으로 진행하며, F1 점수를 50.6% 향상시켰습니다. ActivityNet-QA에서 정확도를 18.58% 향상시켜 일반적인 비디오 이해 능력도 유지했습니다.