본 연구는 시각 분류에서 몇 가지 예시를 활용한 In-Context Learning(ICL)을 사용하는 MLLM의 개념 기반 설명 가능성을 평가했어요. Description Logic(DL) 추론과 같은 엄격한 조건 하에서 모델의 성능을 분석한 결과, 설명 생성은 예측보다 어렵다는 것을 확인했어요. 놀랍게도 형식적인 개념 기반 설명을 강제하면 예측 정확도가 오히려 낮아졌어요.
모델이 시각적 특징을 정확하게 설명할 때는 설명 품질과 예측 정확도가 강하게 상관관계를 보였어요. MLLM은 시각 분류에 뛰어나지만, 형식적이고 기계 검증 가능한 설명 가능성을 위한 추가적인 튜닝이 필요하다는 점을 시사해요.