Pulse · AI 뉴스

Stochastic MeanFlow 정책: 엔트로피 미러 디센트를 활용한 1단계 생성 제어

Stochastic MeanFlow Policies · 2026-05-21

연구진은 온라인 오프라인 강화 학습에서 정책 클래스와 업데이트 규칙의 상호 연관성을 개선하기 위해 Stochastic MeanFlow 정책(SMFP)을 제안했어요. SMFP는 가우시안 노이즈를 액션으로 변환하는 MeanFlow 변환을 통해 생성 정책의 표현력과 미러 디센트의 안정성을 결합했어요. 7개의 MuJoCo 벤치마크에서 SMFP는 기존 가우시안 및 생성 정책보다 성능이 향상됐어요.

SMFP는 1단계 추론 효율성을 유지하면서 탐색과 안정적인 정책 개선을 지원하는 새로운 정책 클래스예요. 이 방법은 가우시안 노이즈를 액션으로 매핑하는 MeanFlow 변환을 통해 추론 가능한 엔트로피 대리 계수를 제공해요.

연구 결과, SMFP는 기존 방법보다 더 나은 성능을 보이며, 강화 학습 연구에 새로운 가능성을 제시하고 있어요.

##강화학습##정책최적화##생성모델##미러디센트
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기