Pulse · AI 뉴스

신뢰 영역 온정책 증류(TrOPD)로 LLM 학습 안정성 개선

Trust Region On-Policy Distillation · 2026-05-31

연구진은 대규모 언어 모델(LLM)의 효율적인 사후 학습 기법인 온정책 증류(OPD)의 안정성을 높이는 TrOPD를 제안했어요. TrOPD는 교사-학생 모델 분포 차이로 인한 불안정성을 완화하기 위해 신뢰 영역 내에서만 온정책 학습을 수행해요.

이상치 영역에서는 그래디언트 클리핑, 마스킹, 순방향 KL 추정 등을 활용하여 신뢰할 수 없는 지도에 의한 부정적인 영향을 줄여요.

학생 모델은 교사 모델의 접두사로부터 생성하고 순방향 KL을 사용하여 온정책 탐색을 장려하며 신뢰할 수 있는 영역으로 나아가도록 유도돼요.

##LLM##온정책증류##TrOPD##사후학습

매일 핵심 AI 소식을 한국어로, 빠르게