연구진은 단일 시점·모달리티·모델로는 인간 행동의 풍부한 정보를 담기 어렵다는 문제점을 지적하며, UNIEGO 프레임워크를 제안했어요.
UNIEGO는 시점·모달리티·기반 모델의 다양한 지식을 통합하는 계층적 다중 교사 증류 프레임워크를 사용하며, 9개의 교사와 4개의 기반 모델을 활용했어요.
Selective Proxy Distillation (SPD) 기술을 통해 신뢰성 있는 지도만 증류하고 오류 신호를 억제하여 UNIEGO는 액션 인식, 동영상 검색, 액션 분할 등 3가지 작업에서 최고 성능을 달성했어요.