사용자가 C++ 엔진을 개발하여 Orange Pi AIPro (Ascend 310B NPU 탑재)에서 MiniCPM-V 4.6 추론을 실행했습니다.
기존 프레임워크를 우회하여 텍스트 생성 및 SigLIP 비전 타워를 NPU에서 직접 실행, 토큰 생성 속도를 5.90 토큰/초로 향상시켰습니다 (기존 2.88 토큰/초).
메모리 대역폭이 병목 현상으로 작용하며, INT4/INT8 양자화 커널 구현을 통해 12 토큰/초 이상 속도 향상이 가능할 것으로 예상됩니다.