연구진이 양방향 음성·시각 대화형 에이전트 평가를 위한 첫 번째 벤치마크인 VideoFDB를 공개했어요.
VideoFDB는 실제 화상 통화에서 추출한 237개의 클립으로 구성되며, 비언어적 대화 역학을 평가하는 분류 체계와 평가 기준을 포함하고 있어요.
현재 시스템은 시각 정보를 활용하지만, 자연스러운 대화에 필요한 실시간 음성·시각 통합 지각에는 어려움을 겪고 있으며, 음성-아바타 시스템은 양방향 비언어적 신호 생성에 근본적인 한계가 있어요.