Pulse · AI 뉴스

일반 추론을 위한 전이성: 다중 도메인 RLVR을 위한 자동 교육 과정

Llama · 2026-06-27

연구진은 수학, 프로그래밍, 과학 등 다양한 도메인을 포괄하는 다중 도메인 RLVR 훈련 교육 과정에 대한 새로운 접근 방식인 Transfer-Aware Curriculum (TAC)을 제안했어요.

TAC는 기존의 고정되거나 수동으로 조정된 교육 과정의 단점을 극복하기 위해, 정책 업데이트가 전체 훈련 스위트에 미치는 영향을 고려하여 도메인 우선순위를 정해요.

실험 결과, TAC는 Qwen3-1.7B 및 Llama3.2-3B 모델에서 기존 방식보다 우수한 성능을 보였으며, 특히 전이성 신호가 없을 때 성능이 크게 저하되는 것으로 나타났어요.

##RLVR##교육과정##전이학습##Qwen##Llama
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기