연구팀이 CVPR 2026 EgoVis 워크숍 CASTLE 챌린지에서 3위를 차지했어요. 이 챌린지는 복잡한 시각, 시공간, 언어 질문에 답하는 방식으로, 600시간 이상의 다중 카메라 영상 스트림을 분석해야 해요.
연구팀은 장문 비디오 이해를 위해 학습이 필요 없는 에이전트 기반 프레임워크를 개발했어요. 이 프레임워크는 비디오 지식 그래프와 적응형 에이전트 워크플로우를 핵심 구성 요소로 사용해요.
실험 결과, 제안하는 프레임워크는 장문 다중 시점 스트림에서 높은 제로샷 추론 정확도를 달성했어요. 코드 공개 예정이며, GitHub에서 확인할 수 있어요.