Pulse · AI 뉴스

시각 정보가 풍부한 문서 유형 분류를 위한 다중 모드 접근 방식 비교 분석

Qwen · 2026-06-01

연구진은 텍스트, 이미지, 레이아웃 정보를 통합하여 시각적으로 복잡한 문서 유형 분류 성능을 비교 분석했어요.

LayoutLMv3, Donut, Qwen3-VL-32B-Instruct, Qwen3-32B 모델을 RVL-CDIP 벤치마크로 평가하여 텍스트, 이미지, 레이아웃 정보의 기여도를 분석했어요.

전문적인 다중 모드 Transformer 모델이 LLM 기반 모델보다 시각적으로 풍부하고 레이아웃이 복잡한 문서에서 더 뛰어난 성능을 보였으며, 이미지 정보가 분류에 가장 큰 영향을 미치는 것으로 나타났어요.

##문서분류##다중모드##Qwen##LayoutLM##RVL-CDIP
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기