HomoAgens1이 llama.cpp 백엔드 기반 로컬 에이전트 구축 시 오케스트레이션 모델 크기에 대한 질문을 제기했어요. 코딩 작업은 별도의 모델로 처리하고, 오케스트레이션 루프 자체의 최소 모델 크기를 찾고 싶어해요.
현재 35B-A3B 모델(MoE, 약 3B 활성 파라미터)이 루프를 안정적으로 유지하는 최소 크기라고 판단하고 있으며, 이보다 작은 모델은 도구 호출 규칙을 어기는 경향이 있어요.
도구 시그니처를 시스템 프롬프트에 명시하거나 반복 감시자를 활용하는 등 시도를 해봤지만, 작은 모델의 도구 호출 규칙 위반 문제를 해결하는 것이 중요해요.