Pulse · AI 뉴스

MODIP: 확산 정책 최적화를 위한 효율적인 모델 기반 프레임워크

MODIP · 2026-06-09

MODIP는 로봇 학습을 위한 확산 정책(DP)의 오프라인-온라인 미세 조정 프레임워크입니다. 세계 모델(WM)을 활용하여 정책 적응을 안내하고 행동 복제(BC)의 단순성과 안정성을 유지합니다. 모델 예측 제어(MPC)를 사용하여 WM 내에서 고품질 경로를 생성하고 DP 미세 조정을 위한 지도 학습 목표로 사용합니다.

MODIP는 MPC 계획 효율성을 위해 정책에 의존하지 않는 터미널 상태 값을 사용하며, 정책에 독립적인 TD 목표로 비평가를 학습시켜 훈련 시간을 단축합니다. D4RL(MuJoCo, Kitchen) 및 RoboMimic 작업에서 실험 결과, MODIP는 DP를 BC 이상으로 개선하고 TD-MPC2와 같은 강력한 모델 기반 기준선과 경쟁하거나 능가합니다.

MODIP는 확산 정책 RL 미세 조정 방법의 대안으로, 로봇 학습 분야에 새로운 가능성을 제시합니다.

##로봇학습##확산정책##강화학습##모델기반제어

매일 핵심 AI 소식을 한국어로, 빠르게

App Store 에서 Pulse 받기 앱에서 열기