Pulse · AI 뉴스

RVL-CDIP 데이터셋 오류 수정 및 테스트-학습 중복 분석

RVL-CDIP · 2026-06-30

연구진이 RVL-CDIP 데이터셋의 오류와 테스트-학습 중복 문제를 해결했습니다. 데이터셋 오류는 12%, 테스트-학습 중복은 약 35%로 확인됐습니다. 오류 수정은 분류 정확도를 향상시키지만, 중복 제거는 오히려 정확도를 떨어뜨렸습니다.

오류 수정 데이터를 활용한 학습은 Out-of-Distribution (OOD) 일반화 성능을 향상시켰습니다. 지도 학습 모델의 정확도가 평균 8.1% 향상됐고, 최대 14%까지 개선됐습니다. RVL-CDIP-N이라는 새로운 OOD 벤치마크를 통해 성능을 평가했습니다.

##데이터셋##오류수정##벤치마크##RVL-CDIP##OOD
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기