연구진은 기존 벤치마크 OmniDocBench의 신뢰성 문제를 지적하며, 프로그램 방식으로 생성된 PureDocBench를 새롭게 공개했어요.
PureDocBench는 10개 도메인, 66개 하위 카테고리, 1,475페이지로 구성되며, 깨끗한 이미지, 디지털 손상 이미지, 실제 손상 이미지 3가지 버전으로 제공돼요.
40개 모델 평가 결과, 문서 파싱은 아직 해결되지 않았으며, 전문 파서가 거대 VLM에 비해 더 나은 성능을 보이는 등, 다양한 결과가 나타났어요.