Pulse · AI 뉴스

ARKD: 강화 학습 기반 적응형 양방향 KL 발산 증류를 통한 텍스트 생성

ARKD · 2026-06-29

ARKD는 지식 증류(KD) 기법의 한계를 극복하기 위해 개발된 새로운 프레임워크입니다. 교사 모델과 학생 모델의 분포 차이를 분석하여, 양방향 KL 발산(FKL/RKL)의 역할을 분산시켜 주요 분포와 장기 확률 모델링을 균형 있게 맞춥니다. 강화 학습 기반 정책 네트워크를 활용하여 FKL과 RKL에 동적으로 가중치를 부여하여 성능을 향상시켰습니다.

Rouge-L 및 BertScore 지표에서 기존 방법보다 0.4~0.6점 향상된 결과를 보였으며, 다양한 벤치마크에서 우수한 성능을 입증했습니다. ARKD는 기존의 탐욕적 휴리스틱 방법보다 효과적인 것으로 나타났습니다.

ARKD는 LLM의 압축 및 생성 품질 향상에 기여하며, 일반화 성능을 개선하는 데 중요한 역할을 합니다.

##LLM##지식증류##강화학습##KL발산##텍스트생성

매일 핵심 AI 소식을 한국어로, 빠르게

App Store 에서 Pulse 받기 앱에서 열기