연구진은 비전-언어 모델(VLM)의 상황 인식 액션 인지 성능을 개선하기 위해 비디오를 시간 액션 그래프로 변환하는 방법을 제안했어요. 짧은 시간 창을 기반으로 자연어 내러티브를 생성하고, 이를 구조화된 그래프 표현으로 변환하는 다단계 프롬프트 파이프라인을 사용해요.
EGTEA 및 Epic-Kitchens-100 데이터셋에서 그래프 표현은 적은 수의 그래프 데모만으로도 상당한 정확도 향상을 가져왔으며, 픽셀 기반 추론보다 효과적이었어요.
연구 결과, 현재 VLM은 직접적인 시각 관찰자보다 상징적 추론에 더 효과적이며, 비디오를 언어 영역으로 투영하여 파인튜닝 없이도 효율적인 추론을 가능하게 해요.