Pulse · AI 뉴스

모든 의견 불일치가 학습 가능한 것은 아니다: 온-정책 증류에서의 토큰 가르칠 가능성

Qwen · 2026-05-26

연구진은 온-정책 증류(OPD)에서 토큰 단위의 교사 신호 중 학습 가능한 신호와 불가능한 신호를 구분하는 방법을 연구했어요. 토큰 가르칠 가능성(teachability)이라는 개념을 도입하여, 기존의 KL 불일치 지표보다 개선된 성능을 보였어요. Teachability-Aware OPD(TA-OPD)라는 새로운 방법을 제안하여, 전체 토큰에 대한 OPD보다 더 효율적으로 학습을 진행할 수 있음을 입증했어요.

TA-OPD는 교사 신호의 학습 가능성을 고려하여 토큰 위치를 선택하는 방식으로, 기존의 엔트로피나 불일치 기반 방법보다 우수한 성능을 보여줘요. Qwen2.5 및 Qwen 3의 교사-학생 설정에서 TA-OPD는 전체 토큰 OPD를 능가하며, 5%의 토큰만 유지하면서도 성능 향상을 달성했어요.

본 연구는 선택적 OPD를 단순히 두드러진 토큰을 선택하는 것이 아니라, 학습 가능한 교사 신호를 선택하는 것으로 재해석하며, 토큰 단위 학습의 새로운 방향을 제시해요.

##연구##온정책증류##토큰##가르칠가능성##Qwen

매일 핵심 AI 소식을 한국어로, 빠르게

App Store 에서 Pulse 받기 앱에서 열기