Pulse · AI 뉴스

OGLS-SD: 결과 기반 로그릿 스티어링을 활용한 온폴리시 자기 증류를 통한 LLM 추론 개선

arXiv cs.LG · 2026-05-13

연구진은 온폴리시 자기 증류(OPSD)의 문제점을 지적하고, 결과 기반 로그릿 스티어링 프레임워크인 OGLS-SD를 제안했습니다. OGLS-SD는 성공 및 실패한 온폴리시 경로를 대비하여 교사 로그릿을 보정하고, 토큰 수준의 오차를 줄입니다. 다양한 벤치마크에서 기존 OPSD 방식보다 추론 성능이 향상되었습니다.

자기 증류 과정에서 교사 응답이 편향되거나 응답 템플릿에 의해 왜곡되는 문제를 해결하기 위해, 검증 가능한 결과 보상을 활용하여 성공 및 실패한 경로를 대비합니다. OGLS-SD는 결과 수준의 정확성과 토큰 수준의 가이드 설정을 결합하여 자기 증류를 안정화합니다.

OGLS-SD는 토큰 수준의 가이드 설정을 통해 교사 로그릿을 조절하여, 기존 OPSD 방식의 한계를 극복하고 LLM의 추론 능력을 향상시키는 데 기여합니다.

##자기증류##LLM##추론##온폴리시##로그릿

매일 핵심 AI 소식을 한국어로, 빠르게

App Store 에서 Pulse 받기 앱에서 열기