Pulse · AI 뉴스

보상 감독 방식 재고: 기준-조건부 자기 증류

arXiv cs.AI · 2026-06-18

연구진이 '기준-조건부 자기 증류(Rubric-Conditioned Self-Distillation)'라는 새로운 프레임워크를 제안했어요. 이 방법은 추론 언어 모델의 학습에 사용되는 기준(rubric)을 활용해 토큰 수준의 지침을 제공해요.

기존의 지도 학습 증류는 비용이 많이 드는 사고 과정(chain-of-thought) 주석에 의존하는 반면, 강화 학습은 평가 피드백을 스칼라 신호로 압축해 구체적인 개선점을 파악하기 어렵다는 한계가 있었어요.

새로운 프레임워크는 기준 수준의 rubrics를 활용해 모델이 학생 모델의 샘플 경로에 대한 토큰 수준의 지침을 제공하며, 과학 추론 벤치마크에서 GRPO보다 1.0점, OPSD보다 0.9점 높게 성능을 개선했어요.

이 방법은 기준을 토큰 수준의 지침으로 변환하여 추론 과정에 대한 보다 세분화된 신용 할당을 가능하게 해요.

##연구##자기증류##추론모델

매일 핵심 AI 소식을 한국어로, 빠르게