Pulse · AI 뉴스

검증 가능한 환경은 레고 블록: 추론 일반화의 재귀적 조합

DeepSeek-R1-Distill-Qwen-14B · 2026-06-10

연구진은 RACES라는 새로운 프레임워크를 통해 검증 가능한 환경을 레고 블록처럼 재귀적으로 조립하여 LLM의 추론 능력을 향상시켰습니다.

RACES는 환경의 입력과 출력이 일치하면 자동으로 융합하여 SEQUENTIAL, PARALLEL, SORT, SELECT 연산자를 통해 다양한 추론 패턴을 유도합니다.

DeepSeek-R1-Distill-Qwen-14B 모델의 성능을 평균 3.1점 향상시키고, Qwen3-14B 모델의 성능을 58.8에서 61.1로 끌어올리는 등 추론 일반화 능력을 입증했습니다.

##LLM##RL##RACES##추론##검증환경
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기