Pulse · AI 뉴스

강위약 온폴리시 증류에서 발생하는 로컬 가르칠 수 있음 붕괴 현상 연구

Qwen · 2026-05-14

연구진은 강위약 온폴리시 증류(OPD)에서 교사의 피드백이 항상 학생의 성능을 향상시키지 않는다는 현상, 즉 로컬 가르칠 수 있음 붕괴를 발견했습니다.

이 현상은 교사의 피드백이 더 이상 차별성을 갖지 못하는 구간에서는 효과적이지 않으며, 이러한 구간을 효과적으로 식별하는 것이 중요합니다.

연구진은 교사의 마진을 측정하고 BIC 스타일의 하강 지점을 감지하는 트레일러리-특이적 릴리스 규칙을 개발하여 기존의 전체 트레일러리 OPD를 능가하는 성능을 보였습니다.

##온폴리시증류##강위약##Qwen##머신러닝##연구
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기