이 글에서는 SFT(Supervised Fine-Tuning)와 DPO(Direct Preference Optimization)를 함께 사용하여 소규모 언어 모델(SLM)의 도구 호출 정확도를 높이는 방법을 배웁니다. Amazon SageMaker AI 훈련 작업을 활용하여 훈련 인프라 관리에 집중하지 않고 훈련 코드에 집중할 수 있습니다. 기본 모델과 여러 미세 조정된 모델을 비교하여 데이터 기반의 모델 품질 결정을 내릴 수 있습니다.