NVIDIA가 DeepSeek, Qwen, Gemma, Kimi 등에서 추출한 235개의 CUDA 커널 벤치마크인 SOL-ExecBench를 공개했어요.
AI 생성 커널 중 일부를 실제 훈련 작업에 적용했을 때, 손실이 발산하는 등 예상치 못한 오류가 발생했어요.
오류 원인은 bf16 정밀도로 누적되는 임베딩 그래디언트 문제였으며, 데이터셋 분포나 최적화 알고리즘에 따라 증상이 달라져 디버깅을 어렵게 만들었어요.
NVIDIA는 관련 블로그 게시물을 통해 추가적인 오류 사례와 분석을 제공할 예정이에요.