Subhadip Mitra가 트리톤 기반 퓨즈 MoE 디스패치 커널(TritonMoE)을 공개했어요. 이 커널은 NVIDIA와 AMD에서 벤더 종속 코드 없이 실행 가능합니다. 게이트와 업 GEMM을 결합하여 SwiGLU 프로젝션을 계산하며, 글로벌 메모리 트래픽을 35% 줄이는 효과를 보여요. A100에서 최대 512 토큰의 배치 크기에서 Megablocks 처리량을 89~131% 달성했으며, MI300X에서도 동일한 커널로 실행돼요.