Pulse · AI 뉴스

능력 선택적 부분 공간 투영을 통한 자체 정책 증류

Self-Policy Distillation · 2026-05-22

본 연구는 기존 자체 증류 방법의 한계를 극복하기 위해 자체 정책 증류(SPD)를 제안합니다. SPD는 외부 신호 없이도 능력 선택적으로 자체 증류를 가능하게 합니다. 핵심은 모델 자체의 정확성 관련 토큰에 대한 그래디언트를 활용하여 저차원 능력 부분 공간을 추출하는 것입니다.

SPD는 핵심-값(KV) 활성화를 이 부분 공간으로 투영하고, 표준 다음 토큰 예측 손실로 원시 출력을 미세 조정합니다. 코드 생성, 수학적 추론, 객관식 QA 등 다양한 실험에서 기존 자체 증류 방법보다 최대 13% 성능 향상을 보였습니다.

특히 SPD는 외부 도메인 일반화 설정에서 15% 더 나은 성능을 보여 일반화 성능이 우수함을 입증했습니다. SPD는 기존 방식의 스타일 패턴, 모델 오류 등의 노이즈를 제거하여 특정 능력 향상에 집중할 수 있도록 합니다.

본 연구는 자체 증류를 위한 새로운 패러다임을 제시하며, 외부 신호 없이도 LLM의 성능을 향상시킬 수 있는 가능성을 보여줍니다.

##LLM##자체증류##SPD##머신러닝##연구
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기