Pulse · AI 뉴스

SOD: 소형 언어 모델 에이전트 학습을 위한 단계별 온-정책 증류

SOD · 2026-05-08

연구진은 도구 통합 추론(TIR)의 불안정성과 모델 용량 제한 문제를 해결하기 위해 SOD라는 단계별 온-정책 증류 프레임워크를 제안했습니다.

SOD는 단계별 분기 정도에 따라 증류 강도를 적응적으로 조정하여, 교사의 신뢰할 수 없는 토큰 수준의 감독을 방지합니다.

연구 결과, SOD는 어려운 수학, 과학, 코딩 벤치마크에서 기존 방법보다 최대 20.86% 성능 향상을 보였으며, 0.6B 모델이 AIME 2025에서 26.13%의 정확도를 달성했습니다.

##에이전트##소형언어모델##증류##TIR
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기