Pulse · AI 뉴스

BC로 Q-함수 추출: 로봇 강화 학습을 위한 행동 복제에서 Q-값 추출

Q2RL · 2026-05-07

연구진은 행동 복제(BC) 정책에서 Q-함수를 추출하여 온라인 강화 학습(RL)을 지원하는 Q2RL 알고리즘을 제안했습니다.

Q2RL은 환경과의 상호작용을 통해 Q-함수를 추정하고, BC와 RL 정책의 Q-값을 기반으로 정책을 전환하여 RL 정책 훈련에 필요한 샘플을 수집합니다.

D4RL 및 robomimic 벤치마크에서 Q2RL은 기존 오프라인-온라인 학습 방법보다 높은 성공률과 빠른 수렴 속도를 보였으며, 파이프 조립 및 키팅과 같은 작업에서 1~2시간의 온라인 상호작용으로 100%의 성공률을 달성했습니다.

##로봇학습##강화학습##행동복제##Q2RL

매일 핵심 AI 소식을 한국어로, 빠르게