연구진은 Transformer 모델을 효율적인 Hybrid Attention 모델로 변환하기 위한 새로운 방법론인 FlashMorph를 제안했어요.
FlashMorph는 레이어 중요도를 독립적으로 평가하는 기존 방식의 한계를 극복하고, 레이어 간 상호 의존성을 고려하여 최적의 Hybrid Attention 구성을 찾습니다.
실험 결과, FlashMorph는 기존 방법보다 더 효과적인 Hybrid Attention 구성을 발견하고, 성능 저하 없이 레이어 선택 비용을 크게 절감하는 것을 확인했어요.