연구진이 VRR-QA 챌린지에서 질문에 따른 증거 기반 추론 파이프라인을 개발했어요. GPT-5.5 기반 솔버와 질문 인지 증거 장부(evidence ledger)를 활용해 비디오 내 관계 추론 정확도를 높였어요. 파이프라인은 92.95%의 정확도와 93.79%의 매크로 정확도를 기록하며 챌린지 테스트에서 우수한 성과를 거뒀어요.
초기 솔버는 균일한 비디오 표현을 기반으로 질문에 답하고, 질문 인지 장부는 필요한 대상, 개수, 프레임, 시간적/공간적 범위를 명시해요. 외부 도구는 증거 출처로만 활용되며, 독립적인 증거가 다른 옵션을 뒷받침할 때만 답변을 변경해요.
연구진은 오픈 보카불러리 감지, 깊이 정보, 페어 크롭, ASR, 장면 그래프 장부 등 다양한 외부 도구를 활용해 비디오 내 관계를 추론하고, 이를 통해 질문에 대한 정확한 답변을 도출했어요.