본 논문은 테이블 구조 예측, 셀 위치 파악, 셀 내용 인식 등을 통합적으로 처리하는 멀티 태스크 테이블 인식 문제를 다룹니다. 기존 방식의 자동 회귀 디코더는 셀 표현을 순서 의존적으로 만들어 전체적인 일관성을 저해할 수 있습니다.
연구진은 비인과적 어텐션을 활용한 구조 개선 모듈을 제안하여 셀 특징을 독립적으로 만들어 각 셀이 전역 컨텍스트에 의존하도록 설계했습니다. 이를 통해 셀 내용의 병렬 추론이 가능해졌습니다.
두 개의 대규모 데이터셋 실험 결과, 셀 위치 파악 및 엔드 투 엔드 인식 성능이 향상되었으며, 추론 시간은 약 3배 단축되었습니다.