연구진은 강화 학습 기반 언어 에이전트가 전략적 다양성을 잃고 훈련이 멈추는 '진화적 impasse' 문제를 해결하기 위해 새로운 방법론을 제시했습니다.
DEPT(Dual-scale Evolutionary Policy Training)는 시간 규모가 다른 진화적 인식 메커니즘을 도입하여 훈련 중단 징후를 감지하고, 비대칭적 이점 재형성을 통해 최적화 환경을 조절합니다.
실험 결과, DEPT는 기존 방식보다 뛰어난 성능을 보이며, 정책의 퇴화를 막고 사회적 언어 에이전트의 지속적인 진화를 이끌었습니다.