LatentOmni는 오디오·비디오 정보를 통합 추론하는 새로운 프레임워크입니다. 기존 MLLM의 한계를 극복하기 위해 텍스트 기반 CoT 대신 오디오·비디오의 밀도 높은 정보를 보존하는 통합 잠재 공간을 활용합니다. LatentOmni는 잠재 공간 추론을 감독하기 위해 LatentOmni-Instruct-35K 데이터셋을 구축하고, 기존 모델보다 우수한 성능을 보였습니다.