이 연구에서는 검색 증강 생성(RAG) 프레임워크에서 캄보자 농업 문서에 적용된 4가지 텍스트 청킹 방식(Recursive, Khmer-Aware, Sentence-Based, LLM-Based)의 성능을 비교했어요.
Recursive 청킹 방식이 300자 크기로 설정되었을 때 가장 낮은 L2 거리(0.4295), 가장 높은 답변 관련성(0.8663), 가장 높은 캄보자 IoU(0.6441)를 달성하며 최상의 성능을 보였어요.
통계적 유의미성을 검증한 결과, Recursive 청킹 방식은 Sentence-Based 청킹 방식보다 L2 거리에서 유의미하게 개선된 결과를 보여줬어요.