Gemma 4 E4B와 Qwen3-4B를 QLoRA 방식으로 파인튜닝하여 도구 사용 지식을 소형 언어 모델에 내재화하는 연구를 진행했어요.
AssetOpsBench 벤치마크에서 도구 카탈로그를 생략한 상태(description-free inference)에서 파인튜닝 모델이 전체 도구 설명을 받은 모델보다 더 뛰어난 성능을 보였어요.
Gemma 모델은 AT-F1 점수 0.65, 전체 평가 점수 3.88을 기록하며, 입력 길이는 82.6% 단축되었어요.
Qwen3-4B 모델은 메모리 사용량을 62% 줄이고 실행 속도를 2.5배 향상시켰지만, 일반적인 벤치마크에서 일반 지식 손실(catastrophic forgetting) 현상이 나타났어요.