한 개발자가 4배 3090 GPU 환경에서 Step-3.7-Flash 모델을 실행하며, VRAM에 완전히 탑재된 IQ3_XXS 모델이 일부 데이터를 CPU로 넘기는 IQ4_XS 모델보다 2.4배 빠른 속도를 보였습니다.
MTP(Multi-Piece Token) 기능은 이미지 처리와 호환되지 않아, 이미지 토큰 디코딩 실패로 서버가 중단되는 문제가 발생했으며, 이를 해결하기 위해 KV(Key Value)를 줄여 MTP 기능을 유지했습니다.
VRAM 용량은 시스템 성능에 큰 영향을 미치며, VRAM에 완전히 탑재된 모델이 더 빠른 속도를 내는 것을 확인했으며, MTP와 비전 기능은 함께 사용할 수 없는 것으로 나타났습니다.