Reddit에서 ROCm 사용 경험에 대한 질문이 올라왔어요. 사용자 QuantumQuokka가 RX 7900XTX를 테스트한 결과, ROCm 환경에서 NaN 오류가 빈번하게 발생했다고 해요. 기존 RTX3090 환경과 코드를 동일하게 유지했음에도 불구하고, ROCm 환경에서는 문제가 발생했어요.
nanoGPT 훈련 스크립트는 정상적으로 실행되었지만, 사용자가 개발한 flow matching 모델 훈련 시 NaN 오류가 발생하며 ROCm의 불안정성을 지적했어요. ROCm 팀은 검증된 코드베이스에서는 잘 작동하지만, 일반적이지 않은 코드에서는 문제가 발생할 수 있다고 판단했어요.