연구진은 멀티모달 LLM의 비효율적인 시각 토큰 문제를 해결하기 위해 TOPS라는 새로운 시각 토큰 가지치기 모듈을 제안했어요.
TOPS는 작업 관련성, 정보 커버리지, 의미 다양성이라는 3가지 원칙에 기반하며, 기존 방법보다 성능이 뛰어나다는 것을 실험으로 입증했어요.
LLaVA-NeXT 모델에서 77.8%의 시각 토큰을 제거했지만 성능 저하 없이 오히려 100.6%의 성능 향상을 보여, 불필요한 토큰 제거가 환각 현상 완화에 기여할 수 있음을 시사했어요.