Pulse · AI 뉴스

CPQL: 보수적 가치 추정을 위한 Peng's Q($λ$) 기반 오프라인 강화 학습

CPQL · 2026-05-14

연구진은 오프라인 강화 학습 알고리즘 CPQL(Conservative Peng's Q($λ$))을 제안하며, 기존 PQL 연산자를 보수적 가치 추정을 위해 활용했습니다.

CPQL은 다단계 연산자를 사용하여 오프라인 환경에서 보수적 가치 추정의 효과를 이론적, 실증적으로 입증하며, 기존 방식보다 성능이 우수하고 최적 성능 보장 수준에 근접합니다.

D4RL 벤치마크 실험 결과 CPQL은 기존 오프라인 단일 단계 기준선 알고리즘보다 일관되게 높은 성능을 보였으며, 오프라인-온라인 학습 프레임워크에서도 성능 향상을 이끌었습니다.

##강화학습##오프라인강화학습##CPQL##가치함수

매일 핵심 AI 소식을 한국어로, 빠르게