이 연구는 애플 MPS 백엔드에서 예상치 못한 비단조 지연 현상을 발견했습니다. GPT-2, BLOOM, OPT 등 다양한 모델에서 특정 디코딩 예산 구간 내에서 최대 21배의 지연 스파이크가 관찰되었으며, 인접한 구성에서 회복되는 현상이 나타났습니다.
이러한 이상 현상은 메모리 압박이나 프리필 비용으로 설명되지 않으며, 백엔드 실행 방식과 관련이 있는 것으로 확인되었습니다. CPU와 NVIDIA T4(CUDA)는 동일한 조건에서 부드러운 단조 척도를 보였습니다.
연구진은 자동 회귀 추론에 대한 하드웨어 인지 평가의 중요성을 강조하며, 인접한 구성에서 성능이 불연속적으로 변할 수 있으므로 집계 디코딩 예산 벤치마크에 의존하지 않도록 경고합니다.