연구진은 LLM의 계획 능력을 평가하고 훈련하기 위한 확장 가능하고 검증 가능한 계획 데이터 생성 프레임워크 PlanningBench를 공개했어요.
PlanningBench는 실제 계획 시나리오를 기반으로 30가지 이상의 작업 유형, 제약 조건, 난이도 요소를 구조화된 분류 체계로 추상화해요.
PlanningBench를 활용한 실험 결과, 현재 LLM은 복합 제약 조건 하에서 완전한 해결책을 제시하는 데 어려움을 겪고 있으며, 검증된 PlanningBench 데이터를 활용한 강화 학습은 새로운 계획 벤치마크 및 지시사항 준수 작업 성능을 향상시킬 수 있어요.