Pulse · AI 뉴스

표형 데이터에 대한 구조 인식 청킹: 검색 증강 생성

STC · 2026-05-01

연구진은 CSV, 엑셀 파일과 같은 표형 데이터를 위한 구조 인식 청킹(STC) 프레임워크를 제안했습니다. STC는 행 단위로 계층적 Row Tree 표현을 구성하여 각 행을 키-값 블록으로 인코딩합니다. MAUD 데이터셋 평가 결과, STC는 기존 방식 대비 청크 수를 최대 40% 줄이고 토큰 활용도를 향상시켰습니다.

STC는 구조적 경계를 고려한 토큰 제한 분할과 중복 없는 탐욕적 병합을 적용하여 의미적 관계를 보존하고 단편화를 줄입니다. STC는 하이브리드 환경에서 MRR을 0.3576에서 0.5945로, BM25 환경에서 Recall@1을 0.366에서 0.754로 향상시켰습니다.

##RAG##청킹##표형데이터##구조인식
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기