연구진은 대규모 시각-언어 모델(LVLM)의 성능 향상을 위해 데이터 감사 프레임워크 'Evian'을 개발했어요.
Evian은 모델 응답을 시각 설명, 주관적 추론, 사실 주장으로 분해하여 이미지-텍스트 일관성, 논리적 일관성, 사실 정확도를 평가하는 새로운 패러다임을 도입했어요.
실험 결과, Evian으로 선별된 고품질 데이터 세트로 튜닝한 모델이 훨씬 큰 데이터 세트로 훈련된 모델보다 뛰어난 성능을 보였으며, 논리적 일관성이 데이터 품질 평가에서 가장 중요한 요소임을 밝혀냈어요.