MaineCoon 연구팀이 소셜 플랫폼용 실시간 오디오·비디오 모델 'MaineCoon'을 개발했어요. 이 모델은 220억 파라미터로 구성됐으며, 프레임 속도가 최대 47.5 FPS에 달해요. MaineCoon은 소셜 인터랙티브 애플리케이션에 최적화된 첫 번째 실시간 오디오·비디오 생성 모델이에요. 효율적인 학습과 안정적인 추론을 위해 자체 리샘플링, 교차 모달 표현 정렬 등 새로운 기술이 적용됐어요.
기존 월드 모델이 물리 환경이나 게임 탐험을 시뮬레이션하는 데 집중했다면, MaineCoon은 인간 중심의 사회적 역동성을 반영하는 데 목표를 뒀어요. 에이전트 기반 스트리밍 추론 프레임워크를 통해 천 초 이상의 장시간 생성도 가능하며, 드리프트 방지를 위한 에이전트 캐시 관리 및 프롬프트 계획 기능도 제공돼요. MaineCoon은 고품질, 저지연, 장시간 오디오·비디오 모델의 새로운 성능 기준을 제시했어요.