R3-Streaming은 실시간 비디오 이해의 한계를 극복하기 위해 개발된 새로운 프레임워크입니다. 메모리 압축, 응답 준비 판단, 연산 라우팅을 순차적으로 처리하여 복잡한 쿼리에 대응하고 실시간 제약 조건을 준수합니다.
나이 기반 망각 정책을 도입하여 메모리 압축 효율성을 높였으며, TB-GRPO라는 강화 학습 기법을 통해 어려운 쿼리를 강력한 모델로 라우팅하여 성능을 최적화했습니다.
OVO-Bench에서 57.92, StreamingBench에서 76.36의 최고 성능을 달성하며, 시각적 토큰 사용량을 최대 96%까지 줄였습니다.