Needle 26M이 Qwen3-0.6B를 CPU 환경에서 함수 호출 벤치마크로 비교한 결과, Needle이 정확도와 속도에서 우위를 점했습니다. Needle은 툴 선택 오류를, Qwen3는 툴 호출 자체를 하지 못하는 문제를 보였습니다.
Needle은 단순/재해석 난이도에서 Qwen3과 동률을 이루지만, 암시적 난이도에서 큰 차이를 보이며, Qwen3는 가장 어려운 난이도에서만 우위를 점했습니다. Needle은 힌디어 쿼리에 취약했지만, Qwen3는 힌디어와 프랑스어 쿼리를 처리했습니다.
Needle은 OpenAI JSON Schema 오류로 인해 초기 점수가 낮았지만, 변환 후 정확도가 크게 향상되었고, Qwen3는 프롬프트 템플릿 문제로 인해 처리 시간이 길어졌습니다. 두 모델은 각각 툴 라우팅과 챗봇 기능에 특화된 것으로 보입니다.