MMLongBench-Doc 데이터셋을 활용해 비전 LLM과 OCR 기반 파이프라인을 비교 분석한 결과, OCR이 차트 및 표가 많은 페이지에서 더 나은 성능을 보였어요.
비전 LLM은 PDF 파일 크기 문제로 인한 7%의 내재적 실패율을 보였으며, OCR 기반 파이프라인은 0%의 실패율을 기록했어요.
30개 문서로 구성된 작은 샘플이지만, 비전 LLM과 OCR 간의 성능 차이는 통계적으로 유의미했으며, 비전 LLM은 정확도와 비용 측면에서 뒤쳐졌어요.