Pulse · AI 뉴스

토크나이저 장벽 돌파: 모델 패밀리 간 온-정책 증류

arXiv cs.LG · 2026-06-08

연구진이 서로 다른 토크나이저를 사용하는 모델 간에도 온-정책 증류(OPD)를 가능하게 하는 새로운 기술을 개발했어요. 기존 방식은 토크나이저 공유를 전제로 했지만, 이번 연구는 정밀한 토큰 매핑 알고리즘을 통해 모델 패밀리 간 지식 전달을 가능하게 해요.

기존 방식인 지도적 미세 조정(SFT)은 교사 모델의 응답만을 활용했지만, 새로운 기술은 교사 모델의 확률 분포에 담긴 풍부한 지식을 활용한다는 장점이 있어요.

실험 결과, 새로운 기술은 다양한 벤치마크에서 기존 방식보다 계산 효율성이 훨씬 높았으며, OPD를 위한 더 넓은 범위의 교사-학생 모델 조합을 가능하게 해요.

##LLM##증류##토크나이저##온정책##모델패밀리
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기