Pulse · AI 뉴스

통합 전 분리: SFT 및 RLVR 작업 벡터의 테스트 시간 합성

arXiv cs.LG · 2026-05-01

본 연구는 SFT(지도 미세 조정)와 RLVR(강화 학습 기반 벡터 최적화)의 통합 문제를 분석하고, 테스트 시간 합성 프레임워크인 DoTS를 제안합니다.

DoTS는 SFT와 RLVR 체크포인트를 독립적으로 학습하고, 불필요한 파라미터 업데이트 없이 테스트 시점의 작업 벡터 산술을 통해 두 방식의 장점을 결합합니다.

실험 결과, DoTS는 기존 통합 방식보다 성능이 뛰어나고 계산 비용은 3% 수준으로 절감되었으며, 강력한 체크포인트에 적용하여 SOTA 모델을 능가하는 성능을 보였습니다.

##LLM##SFT##RLVR
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기