연구진은 언어 모델과 에이전트 시스템의 자기 개선을 위한 새로운 탐색 프레임워크인 양방향 진화적 탐색(BES)을 제안했어요.
BES는 기존 탐색 방법의 한계인 희소 검증 신호 의존성과 모델 확률 질량 영역에 갇힌 탐색을 극복하기 위해 순방향 후보 진화와 역방향 목표 분해를 결합했어요.
실험 결과, BES는 기존 알고리즘이 실패하는 어려운 후훈련 작업에서 꾸준한 성능 향상을 보였고, 추론 시에는 기존 오픈소스 프레임워크보다 우수한 성능을 기록했어요.