연구진은 피부 질환 진단 모델의 Grad-CAM 설명을 평가하기 위한 LLM 기반 시각적 설명 평가 프레임워크를 제안했어요. 기존 연구가 분류 성능 향상에 집중한 반면, 모델 설명이 임상적으로 관련 있는 병변 영역에 기반하는지 체계적으로 검토하는 연구는 부족했어요.
EfficientNet-B0, MobileNetV3, ResNet18 기반의 피부 질환 분류 모델에 기하학적 증강, 색상 기반 증강, 혼합 증강 전략을 적용하고 GPT-5.5, Gemini 3.5 Flash, Claude Sonnet 4.6를 활용해 Grad-CAM 설명을 평가했어요. 평가 기준은 병변 위치 파악과 설명 신뢰도였어요.
평가 일관성과 임상적 기반을 강화하기 위해 평가 기준, 임상 지식, 페널티 규칙, 구조화된 출력 형식을 통합하는 점진적 프롬프트 엔지니어링 전략을 도입했어요.