Pulse · AI 뉴스

추론 경로에서 재사용 가능한 모듈까지: 언어 모델 추론의 조합적 일반화 이해

arXiv cs.LG · 2026-06-17

연구진은 지도 학습(SFT)과 강화 학습(RL)을 결합한 후훈련 파이프라인이 언어 모델(LLM)을 강력한 추론기로 만드는 핵심 요소라고 주장해요. 이들은 조합적 일반화를 형식화하여 추론 경로를 계층적 잠재 선택 모델로 설명해요.

SFT는 조합적 경로의 원자재 모듈을 제공하고, RL은 이러한 경로를 분해하여 잠재적 원자 모듈을 식별하고 조합적 일반화를 가능하게 하는 비대칭적이고 상호 보완적인 역할을 한다는 이론적 증거를 제시했어요.

실험 결과, RL은 SFT가 제공하는 복합 경로에서 원자 모듈을 추출하고 새로운 구성을 재조합할 수 있으며, 복합 경로 학습이 고립된 원자 모듈 학습보다 더 강력한 일반화를 이끌어낸다는 것을 확인했어요.

##LLM##추론##강화학습##SFT##조합적일반화
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기