Pulse · AI 뉴스

미래의 자신으로부터 학습: 확산 LLM을 위한 온-정책 자체 증류

d-OPSD · 2026-06-17

연구진이 확산 LLM(dLLM)에 최적화된 새로운 자체 증류 프레임워크 'd-OPSD'를 개발했어요. 기존 방식의 한계를 극복하기 위해, 미래의 답변을 활용한 suffix conditioning과 step-level supervision을 도입했어요. d-OPSD는 기존 RLVR 및 SFT 방식보다 뛰어난 샘플 효율성을 보여주며, 최적화 단계 수를 10% 수준으로 줄였어요.

##dLLM##OPSD##self-distillation
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기