사용자가 트랜스포머 기반 신경망의 추론 속도와 모델 크기를 최적화하는 과정에서 어려움을 겪고 있어요. FP16 변환, ONNX Runtime 최적화, 가지치기, 그래프 최적화 등 다양한 방법을 시도했지만, 162MB 크기를 줄이는 데 한계에 부딪혔어요. 저랭크 분해, 더 공격적인 양자화, 지식 증류 등 추가적인 최적화 방법을 고려 중이며, 실질적인 개선 효과를 얻을 수 있는 방법을 문의했어요.