본 연구는 딥러닝 모델의 예측을 사람이 이해할 수 있는 고차원 개념으로 설명하는 개념 기반 설명을 제안합니다. 기존 방식은 원인-결과 연결을 명확히 하거나, 표현력이 제한되어 단일 개념만으로 설명하는 데 한계가 있었습니다. 연구팀은 고차원 개념을 활용한 추론 및 대비 설명을 통해 모델 예측에 필요한 최소한의 개념 집합을 파악합니다.
연구 결과, 모델의 개별 이미지 예측뿐만 아니라 특정 행동을 보이는 이미지 그룹에 대한 유용한 설명을 제공할 수 있었습니다. 다양한 모델, 데이터셋, 행동에 대한 평가를 통해 제안 방식의 효과성을 입증했습니다.
연구팀은 개념 삭제 절차를 활용하여 원인-결과 관계를 확립하고, 최소 설명 집합을 나열하는 알고리즘 패밀리를 제시했습니다.