Pulse · AI 뉴스

Flash-GMM: 대규모 데이터 GMM 연산 가속을 위한 메모리 효율적인 커널

Flash-GMM · 2026-06-09

연구진이 대규모 데이터 GMM 연산을 위한 융합 Triton 커널인 Flash-GMM을 발표했어요. 기존 구현 대비 최대 20배 빠른 속도를 제공하며, 단일 GPU에서 100배 더 큰 데이터셋을 처리할 수 있어요.

Flash-GMM을 IVF coarse quantizer에 통합하여 ANN 검색 성능을 향상시켰고, soft GMM 클러스터링이 k-means 대체 가능성을 보여줬어요.

GMM 책임값을 활용하여 경계 벡터를 여러 클러스터에 할당하고, 동일한 연산 비용으로 +2~12%의 recall@10 성능 향상을 달성했어요. 커널은 오픈 소스로 공개됐어요.

##GMM##ANN##Triton##클러스터링##최적화

매일 핵심 AI 소식을 한국어로, 빠르게