연구진은 모바일 NPU에 최적화된 실시간 이미지 디노이징을 위해 하드웨어-알고리즘 공동 설계 접근 방식을 제안했습니다. 이 방법은 고용량 교사 네트워크를 활용하여 모바일 SoC의 타일 메모리 아키텍처를 최대한 활용하는 경량 학생 네트워크를 훈련합니다. 결과적으로 2432x3200 해상도에서 37.66 dB PSNR / 0.9278 SSIM을 달성했습니다.
학생 모델은 1.96M 파라미터로 교사 모델의 99.8% 복원 품질을 지식 증류를 통해 회복하며, 파라미터 수를 21.2배 줄이고 PSNR 격차를 0.05 dB로 줄였습니다.
연구진은 NPU 호환 연산에 대한 엄격한 준수가 모바일 GPU보다 최대 3.88배 빠른 전용 NPU 실행을 가능하게 하는 '추론 역전' 현상을 밝혀냈습니다.