연구진이 시점 영상에서 세분화된 행동 인식을 위한 멀티 에이전트 프레임워크 'Divide, Deliberate, Decide'를 제안했어요. 이 프레임워크는 VLM 오케스트레이터, 다양한 VLM 전문가, 보르다 득표 집계로 구성돼요. 사전 학습된 모델을 활용해 추가 튜닝 없이 로컬 환경에서 실행돼요.
VLM 오케스트레이터는 영상을 분할하고 각 세그먼트별 후보 레이블 목록을 제안하고, VLM 전문가들은 상호 질문을 통해 숙고 과정을 거쳐요. 이 과정에서 모델의 편향성을 줄이고 성능을 향상시킬 수 있어요.
실험 결과, 제안하는 방법은 기존 방식보다 제로샷 행동 인식 성능을 개선했어요. 이는 다양한 모델의 선호도를 결합하는 숙고 단계의 영향을 보여줘요.