Tecnología

ChatGPT fue posible gracias a decenas de miles de GPU Nvidia, que Microsoft está actualizando ahora

Mirando hacia adelante: Un nuevo informe ha revelado la enorme cantidad de GPU Nvidia utilizadas por Microsoft y las innovaciones necesarias para organizarlas para ayudar a OpenAI a entrenar ChatGPT. La noticia llega cuando Microsoft anuncia una actualización significativa de su supercomputadora de IA para promover su iniciativa de IA generativa de cosecha propia.

Según Bloomberg, OpenAI entrenó a ChatGPT en una supercomputadora que Microsoft creó a partir de decenas de miles de GPU Nvidia A100. Microsoft anunció una nueva matriz que utiliza las GPU H100 más nuevas de Nvidia esta semana.

El desafío que enfrentan las empresas comenzó en 2019 después de que Microsoft invirtiera mil millones de dólares en OpenAI y acordara construir una supercomputadora de IA para la puesta en marcha. Sin embargo, Microsoft no tenía el hardware interno para lo que necesitaba OpenAI.

Después de adquirir los chips de Nvidia, Microsoft tuvo que repensar cómo organizaba una cantidad tan grande de GPU para evitar el sobrecalentamiento y los cortes de energía. La compañía no dirá con precisión cuánto costó el proyecto, pero el vicepresidente ejecutivo, Scott Guthrie, calculó la cifra por encima de varios cientos de millones de dólares.

Lea también: ¿Nvidia ha ganado el mercado de entrenamiento de IA?

La ejecución simultánea de todos los A100 obligó a Redmond a considerar cómo los colocó a ellos y a sus fuentes de alimentación. También tuvo que desarrollar un nuevo software para aumentar la eficiencia, garantizar que el equipo de red pudiera soportar cantidades masivas de datos, diseñar nuevas bandejas de cables que pudiera fabricar de forma independiente y usar múltiples métodos de enfriamiento. Dependiendo del clima cambiante, las técnicas de enfriamiento incluían evaporación, enfriadores de pantano y aire exterior.

Desde el éxito inicial de ChatGPT, Microsoft y algunos de sus rivales han comenzado a trabajar en modelos paralelos de IA para motores de búsqueda y otras aplicaciones. Para acelerar su IA generativa, la compañía presentó la VM ND H100 v5, una máquina virtual que puede usar entre ocho y miles de GPU Nvidia H100.

Los H100 se conectan a través de NVSwitch y NVLink 4.0 con 3,6 TB/s de ancho de banda biseccional entre cada una de las 8 GPU locales dentro de cada máquina virtual. Cada GPU cuenta con 400 Gb/s de ancho de banda a través de Nvidia Quantum-2 CX7 InfiniBand y conexiones PCIe5 de 64 GB/s. Cada máquina virtual administra 3,2 Tb/s a través de una red fat-tree sin bloqueo. El nuevo sistema de Microsoft también cuenta con procesadores Intel Xeon de cuarta generación y memoria RAM DDR5 de 4800 MHz y 16 canales.

Microsoft planea usar la máquina virtual ND H100 v5 para su nuevo motor de búsqueda Bing impulsado por inteligencia artificial, el navegador web Edge y Microsoft Dynamics 365. La máquina virtual ahora está disponible para su versión preliminar y será estándar con la cartera de Azure. Los posibles usuarios pueden solicitar acceso.