CIG(Conditional Information Gain)는 강화 학습에서 탐색을 위한 새로운 보상 방식으로, 기존 방식의 한계를 극복하기 위해 개발되었습니다.
CIG는 앙상블 불일치 커널의 Cholesky 분해를 통해 원인-결과 관계에 기반한 단계별 보상을 제공하며, 고차원 상태 공간에서도 확장 가능합니다.
12개의 다양한 작업에서 CIG는 기존 탐색 방법보다 우수한 성능을 보이거나 동등한 성능을 나타냈으며, 불확실한 환경에서도 안정적인 탐색 능력을 입증했습니다.