Los Trainium3 UltraServers ya están disponibles: Permiten a los clientes entrenar e implementar modelos de IA más rápido y a menor costo
Los Amazon EC2 Trn3 UltraServers impulsados por el primer chip de IA de 3nm de AWS ayudan a organizaciones de todos los tamaños a ejecutar sus cargas de trabajo de entrenamiento e inferencia de IA más ambiciosas

Business Empresarial.- A medida que los modelos de IA crecen en tamaño y complejidad, están llevando al límite la infraestructura de computación y redes, con clientes que buscan reducir los tiempos de entrenamiento y la latencia de inferencia: el tiempo entre cuando un sistema de IA recibe una entrada y genera la salida correspondiente. El entrenamiento de modelos de vanguardia ahora requiere inversiones en infraestructura que solo un puñado de organizaciones pueden permitirse, mientras que servir aplicaciones de IA a escala demanda recursos de computación que pueden salirse de control rápidamente. Incluso con las instancias aceleradas más rápidas disponibles hoy en día, simplemente aumentar el tamaño del clúster no logra un tiempo de entrenamiento más rápido debido a las restricciones de paralelización, mientras que las demandas de inferencia en tiempo real empujan las arquitecturas de instancia única más allá de sus capacidades. Para ayudar a los clientes a superar estas restricciones, hoy anunciamos la disponibilidad general de los Amazon EC2 Trn3 UltraServers. Impulsados por el nuevo chip Trainium3 construido con tecnología de 3nm, los Trn3 UltraServers permiten a organizaciones de todos los tamaños entrenar modelos de IA más grandes más rápido y servir a más usuarios a menor costo, democratizando el acceso al poder de computación necesario para los proyectos de IA más ambiciosos del mañana.
Trainium3 UltraServers: Diseñados específicamente para cargas de trabajo de IA de próxima generación
Los Trn3 UltraServers empaquetan hasta 144 chips Trainium3 en un solo sistema integrado, ofreciendo hasta 4.4 veces más rendimiento de computación que los Trainium2 UltraServers. Esto le permite abordar proyectos de IA que anteriormente eran poco prácticos o demasiado costosos al entrenar modelos más rápido, reduciendo el tiempo de meses a semanas, sirviendo más solicitudes de inferencia de usuarios simultáneamente, y reduciendo tanto el tiempo de comercialización como los costos operativos.
En las pruebas de los Trn3 UltraServers usando el modelo de pesos abiertos GPT-OSS de OpenAI, los clientes pueden lograr un rendimiento 3 veces mayor por chip mientras ofrecen tiempos de respuesta 4 veces más rápidos que los Trn2 UltraServers. Esto significa que las empresas pueden escalar sus aplicaciones de IA para manejar la demanda máxima con menos huella de infraestructura, mejorando directamente la experiencia del usuario mientras reducen el costo por solicitud de inferencia.
Estas mejoras provienen del chip diseñado específicamente de Trainium3. El chip logra un rendimiento innovador a través de innovaciones de diseño avanzadas, interconexiones optimizadas que aceleran el movimiento de datos entre chips, y sistemas de memoria mejorados que eliminan cuellos de botella al procesar modelos de IA grandes. Más allá del rendimiento bruto, Trainium3 ofrece ahorros sustanciales de energía: 40% mejor eficiencia energética en comparación con generaciones anteriores. Esta eficiencia importa a escala, permitiéndonos ofrecer infraestructura de IA más rentable mientras reducimos el impacto ambiental en nuestros centros de datos.
Infraestructura de red avanzada diseñada para escalar
AWS diseñó el Trn3 UltraServer como un sistema verticalmente integrado, desde la arquitectura del chip hasta la pila de software. En el corazón de esta integración está la infraestructura de red diseñada para eliminar los cuellos de botella de comunicación que típicamente limitan la computación de IA distribuida. El nuevo NeuronSwitch-v1 ofrece 2 veces más ancho de banda dentro de cada UltraServer, mientras que la red Neuron Fabric mejorada reduce los retrasos de comunicación entre chips a poco menos de 10 microsegundos.
Las cargas de trabajo de IA del mañana, incluidos los sistemas agénticos, las mezclas de expertos (MoE) y las aplicaciones de aprendizaje por refuerzo, requieren que cantidades masivas de datos fluyan sin problemas entre procesadores. Esta red diseñada por AWS le permite construir aplicaciones de IA con respuestas casi instantáneas que anteriormente eran imposibles, desbloqueando nuevos casos de uso como sistemas de decisión en tiempo real que procesan y actúan sobre datos instantáneamente, e IA conversacional fluida que responde naturalmente sin retraso.
Para los clientes que necesitan escalar, los EC2 UltraClusters 3.0 pueden conectar miles de UltraServers que contienen hasta 1 millón de chips Trainium, 10 veces la generación anterior, brindándole la infraestructura para entrenar la próxima generación de modelos fundacionales. Esta escala permite proyectos que simplemente no eran posibles antes, desde entrenar modelos multimodales en conjuntos de datos de billones de tokens hasta ejecutar inferencia en tiempo real para millones de usuarios concurrentes.
Los clientes ya están viendo resultados a escala de vanguardia
Los clientes ya están viendo un valor significativo de Trainium, con compañías como Anthropic, Karakuri, Metagenomics, Neto.ai, Ricoh y Splashmusic reduciendo sus costos de entrenamiento hasta en un 50% en comparación con alternativas. Amazon Bedrock, el servicio administrado de AWS para modelos fundacionales, ya está sirviendo cargas de trabajo de producción en Trainium3, demostrando la preparación del chip para implementación a escala empresarial.
Compañías pioneras de IA como Decart, un laboratorio de IA especializado en modelos eficientes y optimizados de video e imagen de IA generativa que impulsan experiencias interactivas en tiempo real, están aprovechando las capacidades de Trainium3 para cargas de trabajo exigentes como video generativo en tiempo real, logrando una generación de fotogramas 4 veces más rápida a la mitad del costo de las GPU. Esto hace que las aplicaciones intensivas en computación sean prácticas a escala, habilitando categorías completamente nuevas de contenido interactivo, desde experiencias en vivo personalizadas hasta simulaciones a gran escala. Con Project Rainier, AWS colaboró con Anthropic para conectar más de 500,000 chips Trainium2 en el clúster de computación de IA más grande del mundo, cinco veces más grande que la infraestructura utilizada para entrenar la generación anterior de modelos de Anthropic. Trainium3 se basa en esta base probada, extendiendo la arquitectura UltraCluster para ofrecer un rendimiento aún mayor para la próxima generación de clústeres de computación de IA a gran escala y modelos de vanguardia.
Mirando hacia la próxima generación de Trainium
Ya estamos trabajando en Trainium4, que está siendo diseñado para brindar mejoras de rendimiento significativas en todas las dimensiones, incluido al menos 6 veces el rendimiento de procesamiento (FP4), 3 veces el rendimiento FP8 y 4 veces más ancho de banda de memoria para respaldar la próxima generación de entrenamiento e inferencia de vanguardia. Combinado con optimizaciones continuas de hardware y software, puede esperar ganancias de rendimiento que escalan mucho más allá de las mejoras básicas. La mejora de rendimiento FP8 de 3 veces en Trainium4 representa un salto fundamental: puede entrenar modelos de IA al menos tres veces más rápido o ejecutar al menos tres veces más solicitudes de inferencia, con ganancias adicionales realizadas a través de mejoras continuas de software y optimizaciones específicas de carga de trabajo. FP8 es el formato de precisión estándar de la industria que equilibra la precisión del modelo con la eficiencia computacional para las cargas de trabajo de IA modernas.
Para ofrecer un rendimiento de escalamiento aún mayor, Trainium4 está siendo diseñado para admitir la tecnología de interconexión de chips de alta velocidad NVIDIA NVLink Fusion. Esta integración permite que Trainium4, Graviton y EFA trabajen juntos sin problemas dentro de racks MGX comunes, brindándole una infraestructura de IA a escala de rack rentable que admite servidores tanto de GPU como de Trainium. El resultado es una plataforma flexible y de alto rendimiento optimizada para cargas de trabajo exigentes de entrenamiento e inferencia de modelos de IA.




