Pulse · AI 뉴스

퓨즈드 MoE 디스패치 커널, 트라이톤으로 구현: 메가블록의 89~131% 성능, AMD에서도 코드 변경 없이 실행

Triton · 2026-05-27

Subhadip Mitra가 트라이톤으로 퓨즈드 MoE 디스패치 커널을 구현했어요. CUDA 최적화된 메가블록의 89~131% 성능을 달성하고 AMD MI300X에서도 코드 변경 없이 실행돼요.

게이트와 업 프로젝션을 융합해 SwiGLU 중간 결과물이 레지스터를 벗어나지 않도록 설계해 글로벌 메모리 트래픽을 35% 줄였어요.

현재 2048+ 토큰 또는 64+ 전문가 환경에서는 성능이 제한적이지만, DeepSeek-V3 규모의 전문가 수를 지원하기 위한 개선이 진행 중이에요.

##MoE##Triton##AMD##Mixtral
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기