Rogala가 ComfyUI 모델의 실제 어텐션 모양을 기반으로 SageAttention 커널 벤치마크를 공개했습니다. 이 벤치마크는 이미지, 비디오, 오디오 생성에 사용되는 어텐션 연산 자체의 성능을 측정합니다.
벤치마크는 SA2, SA2-fp8, SA3-FP4, SDPA 총 4가지 커널을 테스트하며, 각 커널의 성능 지표 (ms, VRAM 사용량, TFLOPS)를 JSON 파일로 제공합니다.
Linux 버전은 VRAM 모니터링을 위해 pynvml을 사용하며, SA3-FP4 기능은 Blackwell 또는 Ada GPU에서 최적의 성능을 발휘합니다. 사용자들은 자신의 GPU에서 벤치마크를 실행하고 결과를 PR 또는 이슈에 첨부하여 기여할 수 있습니다.