LiangSu8899 님이 FlashRT라는 CUDA 기반 실시간 추론 런타임을 개발했는데, 작은 배치 환경에서 런타임 오버헤드가 주요 병목 현상이라는 점을 발견했어요.
기존 런타임(PyTorch, TensorRT 등) 대신 C++/CUDA 커널로 모델 추론 경로를 직접 재작성하여, 작은 배치 환경에서 런타임 오버헤드를 줄이는 방식입니다.
FP8은 유용하지만 FP4는 작은 영역이나 변환 오버헤드가 많은 경우 오히려 성능 향상이 미미할 수 있으며, 런타임 오버헤드가 워크로드 자체가 되는 지점에 도달할 수 있다는 점을 강조했어요.