Subhadip Mitra가 트라이톤으로 퓨즈드 MoE 디스패치 커널을 구현했어요. CUDA 최적화된 메가블록의 89~131% 성능을 달성하고 AMD MI300X에서도 코드 변경 없이 실행돼요.
게이트와 업 프로젝션을 융합해 SwiGLU 중간 결과물이 레지스터를 벗어나지 않도록 설계해 글로벌 메모리 트래픽을 35% 줄였어요.
현재 2048+ 토큰 또는 64+ 전문가 환경에서는 성능이 제한적이지만, DeepSeek-V3 규모의 전문가 수를 지원하기 위한 개선이 진행 중이에요.