PyTorch 학습 프로파일링 시 측정 방식에 따라 실행 결과가 달라지는 문제가 있어요. `torch.cuda.synchronize()` 는 타이밍 경계를 명확히 하지만 CUDA 워크로드에 동기화 지점을 삽입해요. CUDA 이벤트 활용으로 GPU 정체 없이 프로파일링 가능하며, PyTorch 프로파일러나 Nsight 사전 검토에 유용해요.
traceml-ai가 PyTorch 학습 진단 도구 개발 중 관련 기술 메모를 작성했어요. 측정 방식에 따른 GPU 정체 방지 방법을 설명하고 있어요.
이 방법은 PyTorch 프로파일러나 Nsight를 대체하는 것이 아니라, 더 깊은 연산자 레벨 프로파일링 전에 가볍게 사용할 수 있는 사전 검토 단계로 활용돼요.