연구진은 대규모 언어 모델(LLM)의 풍부한 세계 지식을 활용하여 강화 학습(RL) 에이전트를 개선하는 새로운 프레임워크 PriorZero를 제안했습니다.
PriorZero는 LLM에서 파생된 개념적 사전 지식을 세계 모델 기반 계획에 통합하는 방식으로, 몬테카를로 트리 탐색(MCTS)의 루트 노드에 LLM 사전 지식을 주입하여 효율적인 탐색을 돕습니다.
실험 결과, PriorZero는 텍스트 기반 어드벤처 게임과 지시사항 팔로우 그리드월드 작업에서 탐색 효율성과 최종 성능을 모두 향상시키는 것으로 나타났습니다.