Pulse · AI 뉴스

시각 문서 이해의 견고성을 높이는 구조 레이아웃 사전 지식

RT-DETR · 2026-05-19

연구진은 비전-언어 모델(VLM)이 학습 데이터와 다른 레이아웃의 문서를 처리하는 데 어려움을 겪는 문제를 해결하기 위해 새로운 방법을 제시했어요. RT-DETR 검출기를 사용하여 레이아웃 정보를 파악하고, 이를 VLM의 프롬프트에 통합하여 구조적 오류를 줄였어요.

새로운 방법은 문서 페이지의 구조적 이해 성능을 크게 향상시켰으며, 특히 중국어 문서의 표 추출 성능이 크게 개선되었어요. 또한, 무한 루프 디코딩 오류를 줄여 다양한 산업 분야에서 안정적인 성능을 보장했어요.

이 방법은 기존 방식에 비해 약간의 지연 시간과 토큰 사용량을 증가시키지만, VLM 아키텍처를 변경하지 않고도 성능 향상을 달성했으며, 디코더가 구조와 콘텐츠에 따라 다른 방식으로 주의를 기울이는 것을 확인했어요.

##VLM##문서이해##레이아웃##RT-DETR
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기