연구진은 어텐션 헤드의 엔트로피 패턴에 따라 '고정 헤드'와 '동적 헤드'를 구분하고, 컨텍스트에 따라 달라지는 이 패턴을 활용하여 컴퓨팅 자원을 효율적으로 분배하는 EntropyInfer 프레임워크를 제안했어요.
EntropyInfer는 프리필링 단계에서 어텐션 엔트로피를 활용해 헤드별, 세그먼트별로 컴퓨팅 자원을 적응적으로 할당하고, 디코딩 단계에서는 생성된 출력 토큰을 활용해 KV 캐시를 압축하는 방식을 사용해요.
Llama, Qwen, openPangu 모델 시리즈 실험 결과, EntropyInfer는 기존 방식 대비 최대 2.39배 속도 향상을 보였으며, 10만 토큰 이상의 장문 컨텍스트에서 성능 저하 없이 효율적인 추론이 가능함을 입증했어요.