Pulse · AI 뉴스

정답만으로는 부족하다: 실행자 기반 보상을 이용한 추론 플래너 훈련

TraceLift · 2026-05-06

연구진은 LLM의 명시적 추론을 개선하기 위해 TraceLift라는 새로운 프레임워크를 제안했습니다. TraceLift는 추론을 소비 가능한 중간 결과물로 취급하며, 훈련 과정에서 실행자 기반 보상을 활용합니다. TRACELIFT-GROUPS라는 rubric-annotated 데이터셋을 구축하여 추론 품질을 직접 학습할 수 있도록 했습니다.

TraceLift는 훈련 과정에서 frozen된 실행자를 활용하여 추론을 최종 결과물로 변환하고, 실행자 기반 보상을 통해 중간 추론 과정을 형성합니다. 이 보상은 rubric 기반 Reasoning Reward Model (RM) 점수에 동일한 frozen 실행자에 대한 측정된 uplift를 곱하여, 고품질이면서 유용한 추론 과정을 신용합니다.

코드 및 수학 벤치마크 실험 결과, 실행자 기반 추론 보상은 두 단계 플래너-실행자 시스템에서 execution-only 훈련보다 성능을 향상시켰으며, 추론 감독은 단순히 추론 과정이 좋은지 뿐만 아니라 모델이 소비하는 데 도움이 되는지 평가해야 함을 시사합니다.

##연구##LLM##추론##보상##TraceLift
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기