연구진은 온라인 강화 학습 환경에서 추론 속도를 높이는 SOM(Score-Based One-step MeanFlow) 알고리즘을 제안했어요. SOM은 Q 함수와 확률 흐름 ODE를 활용해 목표 속도장을 추정하고, 기존 방식 대비 단일 생성 단계로 최신 성능 달성했어요. 기존 확산·흐름 매칭 기반 정책보다 학습 및 추론 시간도 단축됐어요.
MeanFlow는 다단계 제거 의존성을 없애 추론 속도를 높이지만, 목표 분포 샘플이 필요했는데, SOM은 Q 함수 기반으로 목표 속도장을 직접 구성해 이 문제를 해결했어요. 확산·흐름 매칭 기반 정책의 단점을 보완하는 기술이에요.
SOM은 로봇 제어 과제에서 기존 방식보다 뛰어난 성능을 보였으며, 온라인 강화 학습 환경에서 단일 생성 단계로 최적의 성능을 낼 수 있도록 설계됐어요.