Pulse · AI 뉴스

RLCSD: 강화 학습 기반 대비적 온라인 자기 증류를 통한 추론 모델 성능 향상

Qwen · 2026-06-10

연구진은 온라인 자기 증류(OPSD) 방식의 한계로 스타일 토큰에 집중하는 문제점을 발견했어요. 이를 해결하기 위해 대비적 강화 학습(RLCSD)을 제안하여, 정답 힌트와 오답 힌트 간의 차이를 활용해 스타일 변화를 억제하고 핵심 토큰에 집중하도록 유도했어요. Qwen3와 Olmo-3-7B-Think 모델 실험 결과, RLCSD가 기존 OPSD 방식보다 우수한 성능을 보였어요.

RLCSD는 기존 OPSD 방식에 적용하여 성능을 개선할 수 있으며, 다양한 모델 간 온라인 자기 증류에도 적용 가능한 일반적인 원리라는 점이 확인되었어요. 연구진은 기존 OPSD 방식이 정답 힌트 조건에서 스타일 변화를 유도한다는 문제점을 '특권 유도 스타일 드리프트'라고 명명했어요.

RLCSD는 정답 힌트와 오답 힌트 간의 차이를 대비하여 스타일 변화를 억제하고 핵심 토큰에 집중하도록 유도하는 방식으로, 수학 및 논리적 추론 분야에서 기존 방식보다 성능이 향상된 것으로 나타났어요.

##강화학습##자기증류##추론모델##Qwen3##Olmo
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기