사용자 MaruluVR이 E4B 오디오 인코더를 대규모 모델에 통합하는 방법을 제안했어요. E4B 인코더 출력을 대상 모델의 숨겨진 차원으로 변환하는 선형 투영 레이어를 생성하는 방식이에요. 두 모델을 동결하고 투영 레이어만 학습시켜 비교적 빠르게 훈련할 수 있다고 설명해요.
기존 Whisper 인코더 대신 Gemma 인코더를 활용하여 저지연 LLM에 적합한 오디오 처리 기능을 추가하는 것을 목표로 해요. 이 방법은 기존 연구와 유사하지만, Gemma 인코더를 사용한다는 차이점이 있어요.
훈련 과정에서 대규모 모델의 출력에 부정적인 영향을 주지 않으면서도 오디오 정보를 통합할 수 있다고 주장하며, 텍스트-오디오 페어 데이터셋을 활용하여 투영 레이어를 학습할 계획이에요.