연구진은 텍스트, 이미지, 레이아웃 정보를 통합하여 시각적으로 복잡한 문서 유형 분류 성능을 비교 분석했어요.
LayoutLMv3, Donut, Qwen3-VL-32B-Instruct, Qwen3-32B 모델을 RVL-CDIP 벤치마크로 평가하여 텍스트, 이미지, 레이아웃 정보의 기여도를 분석했어요.
전문적인 다중 모드 Transformer 모델이 LLM 기반 모델보다 시각적으로 풍부하고 레이아웃이 복잡한 문서에서 더 뛰어난 성능을 보였으며, 이미지 정보가 분류에 가장 큰 영향을 미치는 것으로 나타났어요.