연구진은 LLM 에이전트의 프롬프트 엔지니어링을 자동화하는 프레임워크를 개발했어요. 이 프레임워크는 목표 지향적 설명 에이전트와 행동 선택 에이전트로 파이프라인을 분해하고, 환경 피드백을 기반으로 LLM 기반 진화 루프를 통해 각 모듈의 프롬프트를 반복적으로 개선해요.
새로운 행동 분석기를 통해 에피소드 결과를 특정 프롬프트 구성 요소에 연결하고, 환경 롤아웃을 통해 검증하기 전에 프롬프트 수정 제안해요. BabyAI 5가지 과제에서 기존 RobustCoTAgent보다 성능이 향상되었어요.
PutNext 과제에서 RobustCoTAgent가 0% 성공률을 기록한 반면, 최적화된 프롬프트를 사용한 프레임워크는 최대 72.5%의 성공률을 달성하며, 모델 가중치 업데이트 없이 LLM 성능을 향상시킬 수 있음을 보여줬어요.