Pulse · AI 뉴스

온정책 증류의 기하학적 특성에 대한 연구

온정책 증류 · 2026-06-05

연구진은 온정책 증류(OPD)의 학습 과정을 분석하여 지도 학습(SFT) 및 강화 학습(RLVR)과 비교했어요. OPD는 파라미터 공간에서 SFT보다 적은 가중치에 영향을 주고, RLVR보다 제약이 덜한 상태로 나타났어요. 학습 과정에서 특정 저차원 공간에 갇히는 현상도 관찰되었으며, 이는 OPD의 성능에 중요한 역할을 하는 것으로 확인됐어요.

OPD의 업데이트 공간을 제한하면 성능을 유지할 수 있지만, SFT는 성능이 저하되는 것으로 나타났어요. 이는 OPD가 SFT와 RLVR과는 다른 고유한 업데이트 기하학적 구조를 가진다는 것을 시사해요.

연구 결과는 온정책 증류가 SFT와 RLVR의 중간 단계가 아니라, 파라미터 공간에서 독자적인 업데이트 기하학을 유도한다는 것을 보여줘요.

##온정책증류##LLM##기하학##강화학습

매일 핵심 AI 소식을 한국어로, 빠르게

App Store 에서 Pulse 받기 앱에서 열기