연구진이 하이브리드 어텐션 아키텍처 검색 프레임워크 DASH를 공개했어요. DASH는 기존 NAS 방식의 문제점을 개선하여 검색 효율성을 극대화했어요.
DASH는 레이어별 어텐션 연산자 배치를 연속적인 아키텍처 로짓으로 완화하고, 모델과 연산자 가중치를 고정하여 아키텍처 검색만 수행해요.
Qwen2.5-3B-Instruct 모델에서 DASH는 기존 방식보다 뛰어난 성능을 보였으며, Jet-Nemotron 모델과 비교해도 경쟁력 있는 성능을 유지하면서도 훨씬 적은 토큰(1230만 개)과 짧은 시간(20분) 내에 검색을 완료했어요.