ARKD는 지식 증류(KD) 기법의 한계를 극복하기 위해 개발된 새로운 프레임워크입니다. 교사 모델과 학생 모델의 분포 차이를 분석하여, 양방향 KL 발산(FKL/RKL)의 역할을 분산시켜 주요 분포와 장기 확률 모델링을 균형 있게 맞춥니다. 강화 학습 기반 정책 네트워크를 활용하여 FKL과 RKL에 동적으로 가중치를 부여하여 성능을 향상시켰습니다.
Rouge-L 및 BertScore 지표에서 기존 방법보다 0.4~0.6점 향상된 결과를 보였으며, 다양한 벤치마크에서 우수한 성능을 입증했습니다. ARKD는 기존의 탐욕적 휴리스틱 방법보다 효과적인 것으로 나타났습니다.
ARKD는 LLM의 압축 및 생성 품질 향상에 기여하며, 일반화 성능을 개선하는 데 중요한 역할을 합니다.