연구진은 기존 비디오 LLM의 복잡한 비디오 이해 능력 부족과 환각 문제를 해결하기 위해 새로운 비디오 추론 프레임워크인 Video-ToC를 제안했어요. Video-ToC는 시각적 단서 위치 찾기 메커니즘, 추론 수요 기반 보상 메커니즘, 자동 주석 파이프라인의 세 가지 핵심 혁신을 도입했어요. 실험 결과, Video-ToC는 기존 방법들보다 뛰어난 성능을 보여주며, 코드도 GitHub에서 확인할 수 있어요.