Pulse · AI 뉴스

Realizing Native INT8 Compute for Diffusion Transformers on Consumer GPUs: Ideogram 4.0에 적용된 INT8 GEMM 커널

Ideogram · 2026-06-13

Ideogram이 Ampere GPU에서 Diffusion Transformer의 INT8 연산 속도 저하 문제를 해결했어요. 기존 방식은 INT8로 양자화 후 BF16으로 다시 변환하여 BF16 행렬 곱셈을 수행해 INT8 Tensor Core의 장점을 활용하지 못했어요.

Triton 기반 INT8 GEMM 커널을 개발하여 Ideogram 4.0의 선형 레이어에 적용했어요. 이 커널은 INT8xINT8->INT32 연산을 수행하며, 토큰별/채널별 양자화 및 바이어스 결합을 자동 튜닝해요.

새 커널은 BF16보다 2.8~4.2배 빠른 속도를 보이며, 768px에서 ~1.1배, 1024px에서 이미지 생성 시간을 156.5초로 단축했어요. NF4 및 FP8 baseline보다 빠르며, 이미지 품질 저하도 거의 없어요.

INT8 연산은 가장 느린 방식에서 가장 빠른 방식으로 전환되었고, 1024px 이미지 생성도 단일 GPU에서 가능해졌어요.

##INT8##DiffusionTransforme##GPU##Ideogram##Gemm
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기