고객 지원 RAG 챗봇 평가 결과, 검색(Retrieval) 문제 해결이 LLM 문제 해결보다 우선하며, 유사도 임계값 조정으로 검색 정확도를 높일 수 있었습니다.
LLM 평가 모델(Claude Haiku 4.5)을 활용하여 관련성, 정확성, 유용성 등을 평가하는 것이 키워드 매칭 스크립트보다 효과적이며, 튜토리얼 중복 제거로 환각 현상을 줄일 수 있었습니다.
모델 스위핑 결과, Gemma 4 26B가 기존 모델보다 높은 성능을 보였고 비용도 75% 절감되었으며, Neo AI Engineer를 활용하여 평가 프로세스를 자동화했습니다.