Anthropic이 아닌 Qualcomm의 Hexagon NPU를 타겟으로 하는 ONNX Runtime의 QNN 실행 공급자는 지원되지 않는 연산을 CPU로 전환할 때 아무런 경고 없이 조용히 폴백할 수 있습니다.
개발 환경에서는 괜찮아 보이지만 실제 환경에서 입력 분포에 따라 폴백 경로가 달라져 지연 시간이 3배로 늘어날 수 있으며, 이 문제를 감지하기 위해 실제 하드웨어에서 실행하고 분산 계수를 기반으로 게이팅하며 ORT 프로파일링 JSON을 분석해야 합니다.
자세한 내용은 edgegate.frozo.ai 블로그에서 확인할 수 있으며, TensorRT (Jetson) 또는 CoreML (iOS)에서 유사한 폴백 패턴을 경험한 사용자가 있는지 궁금합니다.