Pulse · AI 뉴스

사회적 언어 에이전트의 진화적 정책 훈련: 이중 규모 접근법

arXiv cs.CL · 2026-05-09

연구진은 강화 학습 기반 언어 에이전트가 전략적 다양성을 잃고 훈련이 멈추는 '진화적 impasse' 문제를 해결하기 위해 새로운 방법론을 제시했습니다.

DEPT(Dual-scale Evolutionary Policy Training)는 시간 규모가 다른 진화적 인식 메커니즘을 도입하여 훈련 중단 징후를 감지하고, 비대칭적 이점 재형성을 통해 최적화 환경을 조절합니다.

실험 결과, DEPT는 기존 방식보다 뛰어난 성능을 보이며, 정책의 퇴화를 막고 사회적 언어 에이전트의 지속적인 진화를 이끌었습니다.

##강화학습##사회적언어##에이전트##진화적훈련##DEPT
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기