본 연구는 모델 예측에 영향을 미치는 입력 특징을 분석하는 설명 방법(attribution methods)에 대한 새로운 게임 이론적 프레임워크를 제시합니다.
기존의 역방향 설명 방법(gradients, LRP 등)을 확장된 네트워크 그래프 상의 2인 게임으로 재해석하여, 다양한 방법들의 계산 과정을 비교할 수 있도록 합니다.
새로운 게임 이론적 접근 방식은 설명의 원하는 속성(예: 집중화, 노이즈 강건성)을 게임 이론 개념으로 표현하여 기존 역방향 규칙을 개선하는 데 활용될 수 있습니다.