Pulse · AI 뉴스

LatentRevise: 0회 성공 추론에서 학습하는 방법

LatentRevise · 2026-06-29

연구진은 강화 학습에서 검증 가능한 보상(RLVR)의 샘플링 프론티어 문제를 해결하기 위해 LatentRevise를 제안했어요. 실패한 추론 과정을 분석하여 모델의 약점을 파악하고, 이를 바탕으로 입력 임베딩을 수정하는 방식이에요. 수정된 임베딩은 더 긴 추론 과정을 유도하고, 올바른 답을 찾도록 돕고, 수학 벤치마크 성능을 향상시켰어요.

LatentRevise는 실패한 추론 과정과 정답을 기준으로 모델의 추론 접두사 입력 임베딩을 최적화하여, 잘못된 방향에서 벗어나 정답에 가까워지도록 수정해요. 이때 모델의 어휘 임베딩 볼록 층 내에서만 수정이 이루어져, 실제 토큰 임베딩으로 이동하게 돼요.

연구 결과, LatentRevise를 통해 얻은 데이터는 SFT 및 RLVR 학습에 활용되어 수학 벤치마크에서 기존 방식보다 더 나은 성능을 보였어요.

##RLVR##추론##LatentRevise##강화학습

매일 핵심 AI 소식을 한국어로, 빠르게

App Store 에서 Pulse 받기 앱에서 열기