연구진은 CSV, 엑셀 파일과 같은 표형 데이터를 위한 구조 인식 청킹(STC) 프레임워크를 제안했습니다. STC는 행 단위로 계층적 Row Tree 표현을 구성하여 각 행을 키-값 블록으로 인코딩합니다. MAUD 데이터셋 평가 결과, STC는 기존 방식 대비 청크 수를 최대 40% 줄이고 토큰 활용도를 향상시켰습니다.
STC는 구조적 경계를 고려한 토큰 제한 분할과 중복 없는 탐욕적 병합을 적용하여 의미적 관계를 보존하고 단편화를 줄입니다. STC는 하이브리드 환경에서 MRR을 0.3576에서 0.5945로, BM25 환경에서 Recall@1을 0.366에서 0.754로 향상시켰습니다.