Reddit 사용자가 LLM 추론 속도 저하 원인이 컴퓨팅 자원 부족이 아닌 메모리 대역폭 문제라고 지적했어요. 메모리 대역폭 제한으로 인해 LLM 추론 속도가 느려지는 현상에 대한 논의가 Reddit 커뮤니티에서 벌어졌어요. 이 문제는 LLM 성능 향상을 위한 새로운 접근 방식 모색 필요성을 시사합니다.