AWS가 파운데이션 모델 훈련 및 추론을 위한 인프라, 리소스 오케스트레이션, ML 소프트웨어 스택, 관측 가능성 등 핵심 요소들을 분석하는 기술 보고서를 발표했습니다.
보고서는 모델 크기 확장 외에도, 파인튜닝 및 추론 시간 컴퓨팅의 중요성이 커지고 있음을 강조하며, 이를 위해 컴퓨팅, 네트워크, 스토리지의 긴밀한 결합이 필요하다고 설명합니다.
AWS는 NVIDIA H100, H200, Blackwell B200 아키텍처 기반 GPU 인스턴스를 제공하며, P5, P6 인스턴스 패밀리를 통해 다양한 규모의 워크로드를 지원합니다.