연구진은 비전-언어 모델(VLM)이 학습 데이터와 다른 레이아웃의 문서를 처리하는 데 어려움을 겪는 문제를 해결하기 위해 새로운 방법을 제시했어요. RT-DETR 검출기를 사용하여 레이아웃 정보를 파악하고, 이를 VLM의 프롬프트에 통합하여 구조적 오류를 줄였어요.
새로운 방법은 문서 페이지의 구조적 이해 성능을 크게 향상시켰으며, 특히 중국어 문서의 표 추출 성능이 크게 개선되었어요. 또한, 무한 루프 디코딩 오류를 줄여 다양한 산업 분야에서 안정적인 성능을 보장했어요.
이 방법은 기존 방식에 비해 약간의 지연 시간과 토큰 사용량을 증가시키지만, VLM 아키텍처를 변경하지 않고도 성능 향상을 달성했으며, 디코더가 구조와 콘텐츠에 따라 다른 방식으로 주의를 기울이는 것을 확인했어요.