연구진은 자연어 기반의 언어 비평 프레임워크를 제안하여 비최적 데모로부터의 모방 학습 성능을 향상시켰어요. 기존 방식이 제한적인 수치 신호에 의존하는 것과 달리, 이 프레임워크는 작업 진행 상황, 실패 모드, 교정 지침을 명시적으로 설명하는 자연어 라벨을 활용해요. 실험 결과, 언어 비평 기반 방법은 다양한 연속 제어 작업에서 기존 모방 학습 및 오프라인 강화 학습 기법들을 능가하는 성능을 보여줬어요.