Pulse · AI 뉴스

온-정책 하니스 셀프 증류: 복합 추론을 위한 하니스 기반 학습

arXiv cs.CL · 2026-05-09

연구진은 복합 추론 능력을 향상시키는 온-정책 하니스 셀프 증류(OPHSD) 방법을 제시했어요.

OPHSD는 하니스 기반의 추가적인 감독 신호를 활용하여 모델 자체를 학습시켜, 하니스 기능을 모델에 통합하는 방식이에요.

텍스트 분류 및 수학적 추론 작업에서 기존 방법 대비 성능이 향상되었으며, 하니스 재사용은 오히려 성능 저하를 유발할 수 있음을 확인했어요.

##모델출시##연구##추론

매일 핵심 AI 소식을 한국어로, 빠르게