Nvidia-smi topo 명령으로 CPU를 통해 연결된 두 GPU가 PHB로 정상적으로 인식되지만, NCCL all_reduce_perf 테스트가 실행되지 않고 멈춥니다. X570 기반 시스템에서 TP=2 구성 시 vLLM 실행에 문제가 발생하고 있습니다. GPU 연결 상태는 정상임에도 NCCL 테스트가 실패하는 원인을 파악해야 합니다.
NCCL 테스트 실패는 vLLM의 다중 GPU 활용에 영향을 미쳐 성능 저하를 야기할 수 있습니다. X570 기반 시스템의 특정 환경 설정 또는 드라이버 호환성 문제를 의심해 볼 필요가 있습니다. 문제 해결을 위해 추가적인 디버깅 및 시스템 설정 검토가 필요합니다.