연구진이 어텐션 하이브리드 설계의 새로운 가능성을 제시하는 HydraHead 아키텍처를 공개했어요. HydraHead는 기존 레이어 기반 방식의 한계를 극복하기 위해 헤드 축을 따라 Full Attention(FA)과 Linear Attention(LA)을 결합해요.
HydraHead는 각 헤드의 기능적 특화성을 활용하여, 정보 검색에 중요한 헤드에만 FA를 적용하고 나머지에는 LA를 사용하며, 두 어텐션 신호를 재조화하는 모듈을 통해 성능을 극대화했어요.
단 150억 토큰으로 학습했음에도 불구하고, 512K 컨텍스트 길이에서 기존 모델보다 69% 이상 성능이 향상되었으며, 256K 컨텍스트 길이의 Qwen3.5에 근접하는 결과를 보여주며 확장 가능성을 입증했어요.
HydraHead는 어텐션 하이브리드 설계의 새로운 방향을 제시하며, 긴 컨텍스트 처리 성능 향상에 기여할 것으로 기대돼요.