Pulse · AI 뉴스

예측 전 상상: 비디오 이벤트 예측을 위한 교차 잠재 시각적 추론

Qwen · 2026-06-04

연구진은 비디오 이벤트 예측 모델이 시각적 증거를 바탕으로 미래 상태를 추론하는 데 어려움을 겪는다는 점에 주목했어요.

Future-L1 프레임워크는 MLLM이 텍스트 토큰과 연속적인 잠재 시각적 스팬을 번갈아 가며 사용하도록 하여 시각적 의미를 보존하고 환각을 줄여요.

Future-L1은 FutureBench에서 Qwen3-VL-8B의 성능을 85.4%까지 향상시키며 새로운 최고 기록을 달성했어요.

##비디오예측##잠재표현##MLLM##FutureL1##인공지능

매일 핵심 AI 소식을 한국어로, 빠르게