Pulse · AI 뉴스

Score-Based One-step MeanFlow 정책 최적화

MeanFlow · 2026-05-22

연구진은 온라인 강화 학습 환경에서 추론 속도를 높이는 SOM(Score-Based One-step MeanFlow) 알고리즘을 제안했어요. SOM은 Q 함수와 확률 흐름 ODE를 활용해 목표 속도장을 추정하고, 기존 방식 대비 단일 생성 단계로 최신 성능 달성했어요. 기존 확산·흐름 매칭 기반 정책보다 학습 및 추론 시간도 단축됐어요.

MeanFlow는 다단계 제거 의존성을 없애 추론 속도를 높이지만, 목표 분포 샘플이 필요했는데, SOM은 Q 함수 기반으로 목표 속도장을 직접 구성해 이 문제를 해결했어요. 확산·흐름 매칭 기반 정책의 단점을 보완하는 기술이에요.

SOM은 로봇 제어 과제에서 기존 방식보다 뛰어난 성능을 보였으며, 온라인 강화 학습 환경에서 단일 생성 단계로 최적의 성능을 낼 수 있도록 설계됐어요.

##강화학습##MeanFlow##SOM##정책최적화##확산모델

매일 핵심 AI 소식을 한국어로, 빠르게

App Store 에서 Pulse 받기 앱에서 열기