연구진은 강화 학습 정책의 한계를 극복하기 위해 PACT(Plan, Align, Commit, Think)라는 새로운 아키텍처를 제안했어요. PACT는 빠른 반응형 RL 정책과 느린 숙고형 소규모 언어 모델(SLM) 계획기를 결합합니다. SLM은 안전하고 실현 가능하며 완전한 행동 계획을 생성하고 검증하며, 검증된 계획은 RL 정책을 수정하거나 재훈련하지 않고 직접 실행됩니다.
FrozenLake 환경에서 PACT는 기존 방식보다 뛰어난 성능을 보였어요. PACT는 20억 파라미터 SLM을 기반으로 작동하며, 숙고적 계획과 반응적 실행의 결합이 개별적으로 작용하는 것보다 강력함을 보여줍니다.
연구 결과는 강화 학습 환경에서 계획과 실행의 중요성을 강조하며, SLM의 활용 가능성을 제시합니다.