Pulse · AI 뉴스

DemoPSD: 의견 불일치 정책 자기 증류를 통한 성능 향상

DemoPSD · 2026-07-03

연구진은 기존 자기 증류 방식의 정보 유출 및 탐색 능력 저하 문제를 해결하기 위해 DemoPSD 프레임워크를 제안했어요.

DemoPSD는 교사의 모든 지침을 따르는 대신, 교사와 학생 분포의 역 KL 바리센타 타겟을 학습하여 교사로부터 학습하는 것과 학생의 추론 능력을 유지하는 균형을 맞추는 방식이에요.

SciKnowEval 실험 결과, DemoPSD는 기존 GRPO 및 SDPO 방식보다 성능이 뛰어나고, 더 높은 학습 엔트로피를 유지하며 GPQA 벤치마크에서 안정적인 성능을 보였어요.

##자기증류##LLM##과학##정보유출##탐색능력

매일 핵심 AI 소식을 한국어로, 빠르게