Pulse · AI 뉴스

샘플 효율적인 연속 제어를 위한 편향 제거 모델 기반 표현

DR.Q · 2026-05-12

연구진은 모델 기반 표현의 한계를 극복하기 위해 DR.Q 알고리즘을 제안했습니다. DR.Q는 현재 상태-행동 쌍 표현과 다음 상태 간의 상호 정보량을 최대화하고, 우선순위 경험 재생을 통해 편향을 줄입니다. 다양한 연속 제어 벤치마크에서 DR.Q는 기존 모델보다 우수한 성능을 보였습니다. 코드는 GitHub에서 확인할 수 있습니다.

기존 모델 기반 표현 방법은 관련 변수에 대한 충분한 정보를 포착하지 못하고 초기 경험에 과적합되는 경향이 있습니다. 이러한 문제는 표현과 액터-크리틱 학습에 편향을 초래하여 성능 저하를 야기합니다.

DR.Q 알고리즘은 현재 상태-행동 쌍 표현과 다음 상태 간의 상호 정보량을 최대화하고, 우선순위 경험 재생을 통해 편향을 줄입니다.

##모델기반학습##강화학습##DR.Q##연속제어##편향제거
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기