SICAGE는 문화적 차이를 고려하지 않아 인간-에이전트 상호작용에 제약이 있는 기존 제스처 생성 방식의 한계를 극복하기 위해 개발되었습니다. 화자 독립적인 문화적 표현을 학습하여 제스처 생성 모델을 조건부로 설정하는 모듈식 프레임워크입니다. TED4C-L 데이터셋을 활용하여 문화적 적절성을 평가하고, 실험 결과 동작의 현실감, 다양성, 비트 동기화, 의미적 관련성, 문화적 일관성을 향상시켰습니다.
SICAGE는 적대적 학습과 Fishr 정규화와 같은 도메인 일반화 방식을 활용하여 문화적 표현을 학습하고, 실시간 확산 기반 제스처 생성기 ALaDiT를 통해 효율적인 통합을 지원합니다. 이를 통해 문화적 맥락에 맞는 제스처 생성이 가능합니다.
연구팀은 764명의 TED 연사의 106시간 분량의 다중 모달 데이터셋인 TED4C-L을 구축하여 SICAGE의 성능을 검증했습니다.