Pulse · AI 뉴스

AMD MI300X에서 LLM 추론을 위한 모노커널 구축: 요청당 최대 3,300 토큰/초

Kog · 2026-05-29

Kog AI가 AMD MI300X GPU에서 LLM 추론을 위한 모노커널을 구축하여 요청당 최대 3,300 토큰/초의 성능을 달성했어요.

이 커널은 GPU 내에서 전체 디코딩 시퀀스를 실행하며, 다이 토폴로지 매핑, 컴퓨트 유닛 그룹화 등 최적화를 적용했어요.

현재는 2B 코딩 모델을 지원하며, 향후 대규모 MoE 모델 지원 계획을 밝혔어요. 기술 심층 분석은 블로그에서 확인할 수 있어요.

##LLM##AMD##MI300X##추론

매일 핵심 AI 소식을 한국어로, 빠르게