로봇 임메쉬 학습을 위한 파이프라인에서 심각한 속도 저하 문제가 발생하고 있습니다. ResNet18 인코더를 사용하고 DiT(Diffusion Transformer) 정책 백본을 기반으로 하는 모델의 훈련 속도가 기대보다 훨씬 느립니다. CPU 사용률은 100%에 달하지만 GPU 사용률은 20~30%에 불과하며, 데이터셋을 합성 데이터로 대체해도 속도 개선 효과가 미미합니다.
현재 1초당 약 10회 반복을 수행하며, 5만 샘플 에폭을 훈련하는 데 30분이 소요됩니다. 배치 크기를 늘려도 훈련 시간 단축 효과가 없고, 때로는 더 느려지기도 합니다. GPU 메모리 사용량은 비교적 낮으며, CPU 사용률이 매우 높습니다.
문제 해결을 위해 데이터 로더, 배치 전송, 훈련 스텝, 역전파, 옵티마이저 스텝 등 다양한 부분을 프로파일링했지만, 근본적인 원인을 찾지 못했습니다. RTX 4090 기반 시스템에서 10시간 내외로 훈련이 가능한 논문 사례와 비교했을 때, 현재 설정은 매우 비효율적입니다. 전문가들의 조언과 문제 해결 방향에 대한 도움을 요청합니다.