엔터프라이즈 생산성 어시스턴트에서 110개 에이전트, 584개 도구로 구성된 환경에서 라우팅 정확도 저하를 연구했어요. 모델에 따라 에이전트 수가 늘어날수록 명확하지 않은 요청에 대한 라우팅 F1 점수가 16~23% 포인트 감소했어요. 임베딩 기반 단축 목록은 전체 규모에서 F1 점수를 10~11% 포인트 회복했어요.
라우팅 성능 저하는 모델이 적절한 도구를 찾지 못하는 '검색 격차'와 완벽한 검색에도 오라클 천장이 10% 포인트 떨어지는 '혼동 격차'로 분석돼요. 실제 트래픽에 대한 어노테이션 연구 결과, 임베딩 기반 단축 목록은 10~17% 포인트의 F1 점수를 회복했어요.
검색 격차와 혼동 격차를 줄이기 위해 임베딩 기반 단축 목록을 활용하면 라우팅 성능을 개선할 수 있으며, 이는 실제 트래픽에서도 확인돼요.