Pulse · AI 뉴스

미래의 자기 자신으로부터 학습: 확산 LLM을 위한 온-정책 자기 증류

d-OPSD · 2026-06-16

연구진이 확산 LLM(dLLM)에 최적화된 새로운 자기 증류 프레임워크 d-OPSD를 개발했어요. 기존 방식의 한계를 극복하기 위해 자기 생성 답변을 활용하여 '자기 미래 경험'으로부터 학습하도록 설계됐어요.

d-OPSD는 토큰 레벨이 아닌 스텝 레벨의 감독을 통해 dLLM의 반복적인 노이즈 제거 과정과 일치하며, RLVR 및 SFT 기반 모델보다 우수한 성능을 보여줬어요.

연구진은 d-OPSD가 RLVR의 약 10% 정도의 최적화 단계만으로도 효과를 낼 수 있음을 확인했으며, GitHub에서 관련 코드를 공개했어요.

##dLLM##자기증류##d-OPSD##LLM

매일 핵심 AI 소식을 한국어로, 빠르게