본 연구는 검색 증강 생성(RAG)을 위한 독일 법률 코드 청킹 전략을 조사합니다. 독일 민법전을 벤치마크 코퍼스로 활용하여 다양한 청킹 방식을 비교 분석했어요.
섹션 및 소섹션 기반 청킹이 가장 높은 재현율을 달성했으며, 복잡한 방식은 오히려 성능이 저하되는 것으로 나타났어요. 또한, 단순한 방식이 LLM 기반 방식보다 계산 효율성이 높았어요.
본 연구는 도메인별 구조를 보존하는 것이 효과적인 법률 정보 검색에 중요하며, 의미론적 풍부성과 운영 비용 간의 균형을 고려해야 함을 강조합니다.