Qwen 팀이 헤드 레벨 기능 이질성을 활용한 새로운 어텐션 하이브리드 아키텍처 'HydraHead'를 공개했어요.
HydraHead는 어텐션 하이브리드 설계 공간을 탐색하며, 레이어별 전략의 한계를 극복하고 FA와 LA를 헤드 축에서 결합했어요.
150억 토큰으로 학습한 HydraHead는 512K 컨텍스트 길이에서 기존 모델 대비 69% 성능 향상을 보여 Qwen3.5에 근접했어요.
HydraHead는 정보 검색에 중요한 헤드를 선택하고, FA와 LA의 출력 차이를 조정하는 모듈을 통해 효율적인 성능을 달성했어요.