연구진은 딥러닝 표현과 인간 이해 간 간극을 좁히기 위한 사후 개념 병목 모델(post-hoc CBM)의 성공 여부를 평가하는 기존 방식의 한계를 지적했어요. 기존 방식은 개념적 의미가 아닌 예측적 부산물에 의존할 수 있다는 점을 보여줍니다. 연구진은 새로운 지표를 도입하여 개념 충실도를 예측 정확도와 분리하고, 실제 벤치마크에서 기존 방식이 놓치는 오류를 발견했어요.
사후 개념 병목 모델 학습 시, 보조 데이터의 공변량 변화는 대상 작업에 대한 충실하지 못한 개념 표현으로 이어질 수 있으며, 시각-언어 모델에서 생성된 대리 개념 레이블의 노이즈 또한 문제의 원인입니다. 연구진은 이러한 실패 요인을 공식화하고, 새로운 지표를 통해 이를 분석했어요.
새로운 지표는 기존 방식으로는 감지하기 어려웠던 개념적 의미가 없는 행동을 식별했으며, 이는 기존 방식이 단순히 예측 정확도에만 집중한 결과입니다.