연구진은 강화 학습(RL)에서 표현 학습과 유사성 학습을 직접 정책 업데이트에 활용하는 SAVGO 알고리즘을 제안했어요. SAVGO는 상태-행동 임베딩 공간에서 유사한 행동 가치 추정치를 가진 쌍이 높은 코사인 유사성을 갖도록 학습해요.
학습된 기하는 각 업데이트 시 후보 행동에 대한 유사성 커널을 생성하여 정책 개선을 가능하게 하며, 지역적인 기울기 기반 업데이트를 넘어 더 높은 가치 영역으로 직접 안내해요.
표현 학습, 가치 추정, 정책 최적화를 단일 기하 일관성 목표 내에서 통합하며, 오프라인 액터-크리틱 학습의 확장성을 유지해요.