NVIDIA의 Audio2Face-3D 모델이 Apple Silicon 환경에서 로컬로 구동되도록 포팅됐어요.
soniqo가 개발한 speech-swift 프로젝트를 통해 Apache 2.0 라이선스로 공개되었으며, MLX 그래프 기반으로 작성돼 ONNX 런타임 없이 작동해요.
WAV 파일을 입력하면 타임스탬프가 포함된 표정 애니메이션 계수를 출력하며, 감정 조건부 설정을 통해 전달 방식을 조절할 수 있어요.
ComfyUI 노드, Blender 애드온, 또는 독립 실행형 프리뷰어 개발이 다음 단계이며, TTS와 음성 복제 기능도 함께 제공돼 텍스트 → 복제된 음성 → 표정 동작 파이프라인을 오프라인에서 Mac에서 실행할 수 있어요.