연구진은 비디오 이벤트 예측 모델이 시각적 증거를 바탕으로 미래 상태를 추론하는 데 어려움을 겪는다는 점에 주목했어요. Future-L1 프레임워크는 MLLM이 텍스트 토큰과 연속적인 잠재 시각적 스팬을 번갈아 가며 사용하도록 하여 시각적 의미를 보존하고 환각을 줄여요. Future-L1은 FutureBench에서 Qwen3-VL-8B의 성능을 85.4%까지 향상시키며 새로운 최고 기록을 달성했어요.