연구진이 다양한 믹서를 유연하게 전환하는 하이브리드 모델 Oryx를 제안했어요. Oryx는 토큰 시퀀스 내에서 필요에 따라 quadratic attention과 linear recurrence를 전환하여 사용해요. Mamba-2와 Gated DeltaNet 기반으로 14억 파라미터 모델까지 검증되었으며, 기존 모델 대비 성능 향상 효과를 보였어요.
Oryx는 믹서 간 최소 90% 파라미터를 공유하여 attention과 recurrent 모드가 공유 내부 표현을 사용하도록 설계되었어요. 1.4B 모델에서 평균 언어 모델링 작업에서 0.7% 이상 성능 향상을 달성했어요.
검색 작업에서 Oryx는 전체 토큰의 10% 미만을 attention 모드로 처리해도 Transformer와 유사한 성능을 보였어요. 이는 attention과 linear recurrent 모델이 내부 표현을 공유할 수 있음을 시사하며, 토큰 시퀀스 축 하이브리드화의 가능성을 보여줘요.