Pulse · AI 뉴스

RL 추론 모델의 과도한 사고 감소를 위한 동적 롤아웃 편집

OpenAI · 2026-06-16

연구진은 강화 학습(RL) 방식으로 훈련된 추론 모델에서 불필요한 사고(overthinking) 현상을 분석했어요. 성공적인 롤아웃에서 과도한 사고가 나타나는 경향이 초기부터 불균형을 초래하며, 이는 RL 훈련 과정에서 문제로 작용해요. 이를 해결하기 위해 동적 롤아웃 편집(DRE) 기법을 도입하여, 불필요한 사고를 줄이면서도 정답을 찾기 위한 추론은 유지했어요.

DRE는 성공적인 롤아웃에서 정답 도달 전까지의 부분은 유지하고, 나머지 사고 과정을 편집하여 동일 RL 그룹 내에서 선호하도록 설계돼요. 이를 통해 불필요한 사고에 대한 업데이트 신호를 약화시키면서도 정답을 찾기 위한 추론을 훼손하지 않아요.

다양한 작업에서 실험 결과, DRE는 과도한 사고를 효과적으로 감소시키고 모델 성능을 개선하는 데 기여하는 것으로 나타났어요.

##RL##강화학습##추론##모델최적화##DRE
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기