연구진은 GPT-5.4, Gemini 3.1 Pro, Claude Opus 4.6 등 상용 모델과 비교하여 오픈 소스 SLM(3B 및 7B 파라미터)을 SFT+DPO 방식으로 미세 조정했습니다.
미세 조정 결과, 7B 파라미터 모델은 0.925, 3B 파라미터 모델은 0.911의 높은 성능 점수를 기록하며 모든 LLM을 능가하는 성능을 보였습니다.
DPO 기법을 활용하여 유해한 답변을 줄이고 실패율을 최대 87.6%까지 감소시켰으며, AWQ를 적용하여 페이지당 추론 비용을 약 22% 절감했습니다.