Pulse · AI 뉴스

Oryx: 토큰 시퀀스 내 유연한 믹서 전환 모델

Oryx · 2026-05-28

연구진이 다양한 믹서를 유연하게 전환하는 하이브리드 모델 Oryx를 제안했어요. Oryx는 토큰 시퀀스 내에서 필요에 따라 quadratic attention과 linear recurrence를 전환하여 사용해요. Mamba-2와 Gated DeltaNet 기반으로 14억 파라미터 모델까지 검증되었으며, 기존 모델 대비 성능 향상 효과를 보였어요.

Oryx는 믹서 간 최소 90% 파라미터를 공유하여 attention과 recurrent 모드가 공유 내부 표현을 사용하도록 설계되었어요. 1.4B 모델에서 평균 언어 모델링 작업에서 0.7% 이상 성능 향상을 달성했어요.

검색 작업에서 Oryx는 전체 토큰의 10% 미만을 attention 모드로 처리해도 Transformer와 유사한 성능을 보였어요. 이는 attention과 linear recurrent 모델이 내부 표현을 공유할 수 있음을 시사하며, 토큰 시퀀스 축 하이브리드화의 가능성을 보여줘요.

##모델출시##Mamba##하이브리드모델
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기