Cactus Compute가 Gemini 툴 콜링 기능을 26M 파라미터 모델 'Needle'로 구현해 오픈소스로 공개했습니다.
Needle은 소비자가격 기기에서 6000 토큰/초 프리필, 1200 토큰/초 디코딩 속도를 제공하며, 15개 툴 카테고리(타이머, 메시징, 내비게이션 등)를 지원합니다.
모델은 어텐션과 게이팅만 사용하며, FFN (Feed Forward Network) 레이어를 제거해 효율성을 높였습니다.
Cactus Compute는 Needle과 함께 모바일 및 웨어러블 기기를 위한 오픈소스 추론 엔진 'Cactus'를 개발하고 있습니다.