NVIDIA가 자체 문서에서 생성한 합성 데이터를 활용하여 도메인 특화 임베딩 모델 구축 레시피를 공개했습니다. 이 레시피를 사용하면 기존 임베딩 모델보다 성능을 향상시킬 수 있습니다.
Atlassian은 이 레시피를 JIRA 데이터셋에 적용하여 Recall@60을 0.751에서 0.951로 26% 개선하는 성과를 거두었습니다. 단일 GPU로 가능했습니다.
튜토리얼에서는 데이터 생성부터 모델 배포까지 전 과정을 안내하며, NeMo Data Designer, NeMo Automodel, BEIR, NeMo Export-Deploy, NVIDIA NIM 등 다양한 오픈 소스 프로젝트를 통합하여 사용합니다.
이 튜토리얼은 1-billion 파라미터의 Llama-Nemotron-Embed-1B-v2 임베딩 모델을 기반으로 하며, NVIDIA API 키와 Ampere GPU 또는 그 이상이 필요합니다.
NVIDIA는 이 튜토리얼을 통해 RAG 시스템의 성능을 향상시키는 방법을 제시하고, 관련 자료와 코드를 GitHub에 공개했습니다.