Pulse · AI 뉴스

SAVGO: 코사인 유사도를 활용한 상태-행동 가치 기하 학습을 통한 연속 제어

SAVGO · 2026-05-02

연구진은 강화 학습(RL)에서 표현 학습과 유사성 학습을 직접 정책 업데이트에 활용하는 SAVGO 알고리즘을 제안했어요. SAVGO는 상태-행동 임베딩 공간에서 유사한 행동 가치 추정치를 가진 쌍이 높은 코사인 유사성을 갖도록 학습해요.

학습된 기하는 각 업데이트 시 후보 행동에 대한 유사성 커널을 생성하여 정책 개선을 가능하게 하며, 지역적인 기울기 기반 업데이트를 넘어 더 높은 가치 영역으로 직접 안내해요.

표현 학습, 가치 추정, 정책 최적화를 단일 기하 일관성 목표 내에서 통합하며, 오프라인 액터-크리틱 학습의 확장성을 유지해요.

##강화학습##RL##SAVGO##기하학

매일 핵심 AI 소식을 한국어로, 빠르게