Pulse · AI 뉴스

DOPD: 이중 온정책 증류

DOPD · 2026-06-29

DOPD는 학생 모델이 교사 모델의 능력을 효과적으로 학습하도록 돕는 증류 패러다임입니다. 기존 증류 방식의 한계인 '특권 환상' 문제를 해결하기 위해 교사와 학생 모델의 장점 차이를 활용합니다. 이중 증류를 통해 교사와 학생 모델은 서로 다른 강도와 전략으로 토큰 단위의 지침을 주고받으며 성능을 향상시킵니다. LLM과 VLM 환경에서 실험 결과, 기존 방식보다 우수한 성능을 보였습니다.

DOPD는 토큰의 중요도에 따라 교사 또는 학생 모델이 제공하는 지침의 강도를 동적으로 조절합니다. 이를 통해 교사 모델의 능력을 효과적으로 전달하면서도, 학생 모델은 보조 신호를 받아 '특권 환상'을 완화합니다. 다양한 실험에서 안정성, 강건성, 지속적 학습 능력, 그리고 예외 상황에서의 성능이 우수함을 입증했습니다.

DOPD는 기존 온정책 증류(OPD) 방식의 성능 한계를 극복하고, LLM과 VLM 모델의 능력을 더욱 효과적으로 전달하는 데 기여합니다. 토큰 단위의 지침을 전략적으로 분배하여 모델의 학습 효율성을 높이고, 실제 사용 환경에서의 성능 향상을 목표로 합니다.

##LLM##VLM##증류##DOPD

매일 핵심 AI 소식을 한국어로, 빠르게

App Store 에서 Pulse 받기 앱에서 열기