연구진은 언어 모델과 에이전트 시스템의 자기 개선을 위한 새로운 탐색 프레임워크인 양방향 진화적 탐색(BES)을 제안했어요.
BES는 기존 방식의 제한점을 극복하기 위해, 모델 확률 질량 영역에 갇히지 않고 다양한 후보를 생성하는 진화 연산자와, 정답을 찾기 위한 샘플 수를 기하급수적으로 줄이는 역방향 목표 분해를 결합했어요.
실험 결과, BES는 기존 방식으로는 개선이 어려웠던 어려운 후훈련 작업에서 꾸준한 성능 향상을 보였고, 추론 시에는 기존 오픈소스 프레임워크를 능가하는 결과를 보여줬어요.