Kog AI가 AMD MI300X GPU에서 LLM 추론을 위한 모노커널을 구축하여 요청당 최대 3,300 토큰/초의 성능을 달성했어요. 이 커널은 GPU 내에서 전체 디코딩 시퀀스를 실행하며, 다이 토폴로지 매핑, 컴퓨트 유닛 그룹화 등 최적화를 적용했어요. 현재는 2B 코딩 모델을 지원하며, 향후 대규모 MoE 모델 지원 계획을 밝혔어요. 기술 심층 분석은 블로그에서 확인할 수 있어요.