Pulse · AI 뉴스

고민될 땐 계획하세요: 능동적 강화 학습을 위한 약속된 소규모 언어 모델 숙고

OpenAI · 2026-06-16

연구진은 강화 학습 정책의 한계를 극복하기 위해 PACT(Plan, Align, Commit, Think)라는 새로운 아키텍처를 제안했어요. PACT는 빠른 반응형 RL 정책과 느린 숙고형 소규모 언어 모델(SLM) 계획기를 결합합니다. SLM은 안전하고 실현 가능하며 완전한 행동 계획을 생성하고 검증하며, 검증된 계획은 RL 정책을 수정하거나 재훈련하지 않고 직접 실행됩니다.

FrozenLake 환경에서 PACT는 기존 방식보다 뛰어난 성능을 보였어요. PACT는 20억 파라미터 SLM을 기반으로 작동하며, 숙고적 계획과 반응적 실행의 결합이 개별적으로 작용하는 것보다 강력함을 보여줍니다.

연구 결과는 강화 학습 환경에서 계획과 실행의 중요성을 강조하며, SLM의 활용 가능성을 제시합니다.

##강화학습##언어모델##계획##PACT
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기