연구진은 시스템 프롬프트 최적화 방법인 SePO(Self-Evolving Prompt Optimization)를 제안했어요. SePO는 프롬프트 에이전트의 시스템 프롬프트를 자체적으로 최적화하여 작업 에이전트의 프롬프트와 함께 개선하는 방식입니다.
SePO는 수학, 추상적 추론, 과학, 코딩, 논리 퍼즐 등 5가지 벤치마크에서 기존 방법(Manual-CoT, TextGrad, MetaSPO)보다 평균 4.49점 높은 정확도를 기록했어요.
SePO는 사전 훈련을 통해 얻은 프롬프트 최적화 기술이 사전 훈련 데이터 외의 작업에도 적용되어, 작업별 프롬프트를 암기하지 않고 일반화하는 능력을 보여줍니다.