Pulse · AI 뉴스

AEM: 다중 회전 에이전트 강화 학습을 위한 적응적 엔트로피 조절

arXiv cs.AI · 2026-05-01

본 연구는 강화 학습(RL)에서 희소한 보상 문제를 해결하기 위해 AEM(Adaptive Entropy Modulation)이라는 새로운 방법을 제시합니다. AEM은 감독 없이 엔트로피 역학을 조절하여 탐험과 활용의 균형을 맞춥니다.

AEM은 토큰 수준이 아닌 응답 수준에서 엔트로피 분석을 수행하여 토큰 샘플링 분산을 줄이고, 자연적인 그라디언트 하에서 엔트로피 드리프트가 장점과 응답의 상대적 놀라움의 곱으로 지배된다는 점을 밝혀냈습니다.

1.5B에서 32B 파라미터 모델까지 다양한 벤치마크에서 실험을 진행한 결과, SWE-bench-Verified 벤치마크에서 1.4% 성능 향상을 기록했습니다.

##강화학습##LLM##AEM##엔트로피
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기