Cactus가 26만 파라미터의 함수 호출(tool use) 모델 Needle을 오픈소스했습니다. Needle은 소비자 기기에서 6000 tok/s prefill, 1200 tok/s decode 속도를 자랑합니다.
Gemini를 활용해 합성한 20억 토큰의 함수 호출 데이터로 학습되었으며, 15개 카테고리의 도구를 지원합니다.
기존 모델(FunctionGemma-270M, Qwen-0.6B 등)보다 뛰어난 성능을 보이지만, 대화형 환경에서는 더 큰 모델이 우수합니다.
Cactus는 모바일, 웨어러블, 맞춤형 하드웨어를 위한 추론 엔진으로, Needle은 이 프로젝트의 일환입니다.