연구진이 대규모 데이터 GMM 연산을 위한 융합 Triton 커널인 Flash-GMM을 발표했어요. 기존 구현 대비 최대 20배 빠른 속도를 제공하며, 단일 GPU에서 100배 더 큰 데이터셋을 처리할 수 있어요.
Flash-GMM을 IVF coarse quantizer에 통합하여 ANN 검색 성능을 향상시켰고, soft GMM 클러스터링이 k-means 대체 가능성을 보여줬어요.
GMM 책임값을 활용하여 경계 벡터를 여러 클러스터에 할당하고, 동일한 연산 비용으로 +2~12%의 recall@10 성능 향상을 달성했어요. 커널은 오픈 소스로 공개됐어요.