Pulse · AI 뉴스

학습을 통한 교정: 다중 시도 체인 오브 소트 강화 학습

Google · 2026-04-20

최신 추론 모델은 복잡한 문제를 해결하기 위해 체인 오브 소트(CoT)를 활용하며, 테스트 시간 연산량이 증가하고 있어요.

연구진은 모델이 K번까지 문제를 해결하는 시도를 할 수 있는 환경에서, 각 시도가 이전 시도를 기반으로 개선되도록 하는 강화 학습 방법을 연구했어요.

캘리브레이티드 어템프트 레벨(CAL) GRPO를 제안하여 편향되지 않은 그래디언트를 얻고 분산을 줄이는 방법을 제시했어요.

##강화학습##체인오브소트##모델교정

매일 핵심 AI 소식을 한국어로, 빠르게