Pulse · AI 뉴스

저자원 언어 농업 문서에서 효과적인 텍스트 임베딩을 위한 청킹 전략 평가

BGE-M3 · 2026-05-21

이 연구에서는 검색 증강 생성(RAG) 프레임워크에서 캄보자 농업 문서에 적용된 4가지 텍스트 청킹 방식(Recursive, Khmer-Aware, Sentence-Based, LLM-Based)의 성능을 비교했어요.

Recursive 청킹 방식이 300자 크기로 설정되었을 때 가장 낮은 L2 거리(0.4295), 가장 높은 답변 관련성(0.8663), 가장 높은 캄보자 IoU(0.6441)를 달성하며 최상의 성능을 보였어요.

통계적 유의미성을 검증한 결과, Recursive 청킹 방식은 Sentence-Based 청킹 방식보다 L2 거리에서 유의미하게 개선된 결과를 보여줬어요.

##텍스트임베딩##청킹##캄보자##RAG
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기