Pulse · AI 뉴스

온정책 증류에서 전체 롤아웃이 필수적인가?

Claude · 2026-05-30

온정책 증류(OPD)는 장기적인 추론에 유망한 방법이지만, 전체 롤아웃 생성으로 인해 계산 비용이 높고 신뢰할 수 없는 교사 피드백이 학생에게 전달될 수 있다는 문제가 있어요.

연구진은 점진적 온정책 증류(POPD)를 통해 훈련 과정에서 롤아웃 지평을 점진적으로 확장하고, 잘린 롤아웃(TOPD)을 통해 신뢰할 수 있는 롤아웃만 사용해 효율성을 개선했어요.

수학적 추론 실험 결과, POPD는 OPD 훈련 효율성을 최대 3배 향상시켰고, TOPD는 롤아웃 지평의 10%만 사용해 성능을 유지하며 상당한 시간과 메모리 절감 효과를 보여줬어요.

##온정책증류##OPD##인공지능##학습효율성

매일 핵심 AI 소식을 한국어로, 빠르게