Bloques de construcción para el entrenamiento e inferencia de modelos fundacionales en AWS
Este artículo presenta los bloques fundamentales de infraestructura de AWS para el entrenamiento y la inferencia de modelos fundacionales, adaptados a las nuevas leyes de escalado que incluyen pre-entrenamiento, post-entrenamiento e inferencia con cómputo en tiempo de prueba. Se detallan las instancias EC2 P con GPUs NVIDIA como H100, H200 y Blackwell, redes EFA de baja latencia, almacenamiento con FSx for Lustre y S3, y UltraClusters y UltraServers para escalabilidad extrema. Además, cubre orquestación con Slurm y Kubernetes en SageMaker HyperPod, la pila de software ML desde drivers hasta PyTorch y NCCL, y observabilidad con Prometheus y Grafana para diagnosticar cuellos de botella.
AWSmodelos fundacionalesentrenamiento distribuidoinferencia IAGPUs NVIDIAEFASageMaker HyperPod
Leer noticia original