La empresa moderna se define a sí misma por sus datos. Esto requiere una infraestructura de datos para IA/ML, así como una infraestructura de datos que sea la base de un Datalake moderno capaz de respaldar la inteligencia empresarial, el análisis de datos y la ciencia de datos. Esto es así si están atrasadas, están comenzando o usan IA para obtener información avanzada. En el futuro previsible, así será como se percibirá a las empresas. Existen múltiples dimensiones o etapas para el problema más amplio de cómo la IA llega al mercado en la empresa. Estas incluyen la ingesta de datos, la transformación, el entrenamiento, la inferencia, la producción y el archivo, con datos compartidos en cada etapa. A medida que estas cargas de trabajo escalan, aumenta la complejidad de la infraestructura de datos de IA subyacente. Esto crea la necesidad de una infraestructura de alto rendimiento al tiempo que minimiza el costo total de propiedad (TCO).
MinIO ha creado un plan integral para la infraestructura de datos que admita la IA a exaescala y otras cargas de trabajo de lagos de datos a gran escala. Se llama MinIO DataPod. La unidad de medida que utiliza es 100 PiB. ¿Por qué? Porque la realidad es que esto es algo común hoy en día en las empresas. A continuación, se muestran algunos ejemplos rápidos:
Un fabricante de automóviles norteamericano con casi un exabyte de vídeos de automóviles
Un fabricante de automóviles alemán con más de 50 PB de telemetría de automóviles
Una empresa de biotecnología con más de 50 PB de datos biológicos, químicos y centrados en el paciente.
Una empresa de ciberseguridad con más de 500 PB de archivos de registro
Una empresa de transmisión multimedia con más de 200 PB de video
Un contratista de defensa con más de 80 PB de datos geoespaciales, de registro y telemetría de aeronaves
Incluso si no alcanzan los 100 PB hoy, lo harán dentro de unos pocos trimestres. La empresa promedio crece a un ritmo del 42 % anual, las empresas centradas en datos crecen al doble de esa tasa, si no más.
La arquitectura de referencia MinIO Datapod se puede combinar de distintas maneras para lograr casi cualquier escala. De hecho, tenemos clientes que han desarrollado este modelo a partir de un exabyte y con múltiples proveedores de hardware. MinIO DataPod ofrece una arquitectura integral que permite a los administradores de infraestructura implementar soluciones rentables para una variedad de cargas de trabajo de IA y ML. Esta es la razón fundamental de nuestra arquitectura.
Las cargas de trabajo de IA, especialmente la IA generativa, requieren inherentemente GPU para el procesamiento. Son dispositivos espectaculares con un rendimiento increíble, ancho de banda de memoria y capacidades de procesamiento paralelo. Para mantenerse al día con las GPU, que son cada vez más rápidas, se necesita un almacenamiento de alta velocidad. Esto es especialmente cierto cuando los datos de entrenamiento no caben en la memoria y los bucles de entrenamiento tienen que hacer más llamadas al almacenamiento. Además, las empresas requieren más que rendimiento: también necesitan seguridad, replicación y resiliencia.
El requisito de almacenamiento empresarial exige que la arquitectura desagregue por completo el almacenamiento del cómputo. Esto permite que el almacenamiento se escale independientemente del cómputo y, dado que el crecimiento del almacenamiento generalmente es uno o más órdenes de magnitud mayor que el crecimiento del cómputo, este enfoque garantiza la mejor rentabilidad a través de una utilización superior de la capacidad.
La infraestructura de red se ha estandarizado en enlaces de ancho de banda de 100 Gigabits por segundo (Gbps) para implementaciones de cargas de trabajo de IA. Las unidades NVMe modernas brindan un rendimiento de 7 GBps en promedio, lo que hace que el ancho de banda de red entre los servidores de almacenamiento y los servidores de cómputo de GPU sea el cuello de botella para el rendimiento de la ejecución de la canalización de IA.
Resolver este problema con soluciones de redes complejas como Infiniband (IB) tiene limitaciones reales. Recomendamos que las empresas aprovechen las soluciones basadas en Ethernet estándar de la industria (por ejemplo, HTTP sobre TCP) que funcionan de manera inmediata para entregar datos con un alto rendimiento para GPU por las siguientes razones:
No es casualidad que la infraestructura de datos de IA en las nubes públicas esté construida sobre almacenes de objetos. Tampoco es casualidad que todos los modelos básicos principales se hayan entrenado en un almacén de objetos. Esto se debe al hecho de que POSIX es demasiado hablador para funcionar a la escala de datos que requiere la IA, a pesar de lo que afirmen los defensores de los archivos heredados.
La misma arquitectura que ofrece IA en la nube pública se debe aplicar a la nube privada y, obviamente, a la nube híbrida. Los almacenes de objetos se destacan por manejar varios formatos de datos y grandes volúmenes de datos no estructurados y pueden escalar sin esfuerzo para adaptarse a datos en aumento sin comprometer el rendimiento. Sus capacidades de metadatos y espacio de nombres planos permiten una gestión y procesamiento de datos eficientes, lo cual es crucial para las tareas de IA que requieren un acceso rápido a grandes conjuntos de datos.
A medida que las GPU de alta velocidad evolucionan y el ancho de banda de la red se estandariza a 200/400/800 Gbps y más, los almacenes de objetos modernos serán la única solución que cumpla con los acuerdos de nivel de servicio de rendimiento y la escala de las cargas de trabajo de IA.
Sabemos que las GPU son la estrella del espectáculo y que son hardware, pero incluso Nvidia te dirá que el ingrediente secreto es CUDA. Sin embargo, si nos alejamos del chip, el mundo de la infraestructura está cada vez más definido por el software. En ningún ámbito esto es más cierto que en el almacenamiento. Las soluciones de almacenamiento definidas por software son esenciales para la escalabilidad, la flexibilidad y la integración en la nube, y superan a los modelos tradicionales basados en dispositivos por las siguientes razones:
Compatibilidad con la nube : el almacenamiento definido por software se alinea con las operaciones en la nube, a diferencia de los dispositivos que no pueden ejecutarse en múltiples nubes.
Contenerización : los dispositivos no se pueden contenerizar, lo que hace que se pierdan las ventajas nativas de la nube y se evite la orquestación de Kubernetes.
Flexibilidad de hardware : el almacenamiento definido por software admite una amplia gama de hardware, desde el borde hasta el núcleo, y se adapta a diversos entornos de TI.
Rendimiento adaptativo : el almacenamiento definido por software ofrece una flexibilidad inigualable y administra de manera eficiente diferentes capacidades y necesidades de rendimiento en varios conjuntos de chips.
A escala de exabytes, la simplicidad y un modelo operativo basado en la nube son cruciales. El almacenamiento de objetos, como solución definida por software, debería funcionar sin problemas en hardware comercial y en cualquier plataforma informática, ya sea hardware físico, máquinas virtuales o contenedores.
Los dispositivos de hardware diseñados a medida para el almacenamiento de objetos a menudo compensan un software mal diseñado con hardware costoso y soluciones complejas, lo que resulta en un alto costo total de propiedad (TCO).
Los clientes empresariales que utilizan MinIO para iniciativas de IA crean una infraestructura de datos a escala de exabytes como unidades repetibles de 100 PiB. Esto ayuda a los administradores de infraestructura a facilitar el proceso de implementación, mantenimiento y escalado a medida que los datos de IA crecen exponencialmente durante un período de tiempo. A continuación, se muestra la lista de materiales (BOM) para construir una infraestructura de datos a escala de 100 PiB.
Componente | Cantidad |
---|---|
Número total de bastidores | 30 |
Número total de servidores de almacenamiento | 330 |
Número total de servidores de almacenamiento por rack | 11 |
Número total de conmutadores TOR | 60 |
Número total de interruptores Spine | 10 |
Tamaño de la franja del código de borrado | 10 |
Paridad del código de borrado | 4 |
Componente | Descripción | Cantidad |
---|---|---|
Caja de rack | Rack con ranuras de 42U/45U | 1 |
Servidor de almacenamiento | Factor de forma 2U | 11 |
Conmutadores de la parte superior del rack | Conmutador de capa 2 | 2 |
Interruptor de gestión | Capa 2 y capa 3 combinadas | 1 |
Cables de red | Cables AOC | 30-40 |
Fuerza | Fuente de alimentación dual con RPDU | 17 kW - 20 kW |
Componente | Especificación |
---|---|
Servidor | 2U, un solo zócalo |
UPC | 64 núcleos, 128 * líneas PCIe 4.0 |
Memoria | 256 GB |
Red | Puerto dual, NIC de 200 GBE |
Bahías de unidad | 24 NVMe U.2 de 2,5" intercambiables en caliente |
Conduce | 30 TB * 24 NVMe |
Fuerza | Fuentes de alimentación redundantes de 1600 W |
Capacidad bruta total | 720 TB |
Dell : Servidor en rack PowerEdge R7615
HPE : HPE ProLiant DL345 Gen11
Supermicro : Servidor A+ 2114S-WN24RT
Componente | Especificación | |
---|---|---|
Conmutador de la parte superior del rack (TOR) | 32 * 100 GbE QSFP 28 puertos | |
Interruptor de columna | 64 * 100 GbE QSFP 28 puertos | |
Cable | 100G QSFP 28 AOC | |
Fuerza | 500 vatios por interruptor | |
MinIO ha validado esta arquitectura con varios clientes y espera que otros vean el siguiente precio promedio por terabyte por mes. Este es un precio promedio en la calle y el precio real puede variar según la configuración y la relación con el proveedor de hardware.
Escala | Precio del hardware de almacenamiento **(por TB/mes)** | Precio del software MinIO **(Por TB/mes)** |
---|---|---|
100PiB | $1,50 | $3,54 |
Los dispositivos de hardware llave en mano específicos del proveedor para IA generarán un alto costo total de propiedad y no son escalables desde el punto de vista de la economía unitaria para iniciativas de IA de grandes datos a escala de exabytes.
La configuración de la infraestructura de datos a escala de exabytes y el cumplimiento de los objetivos de TCO para todas las cargas de trabajo de IA/ML pueden ser complejos y difíciles de implementar correctamente. El modelo de infraestructura DataPOD de MinIO hace que sea simple y directo para los administradores de infraestructura configurar el hardware comercial requerido con un almacén de objetos empresariales MinIO compatible con S3 altamente escalable, de alto rendimiento y rentable, lo que da como resultado un mejor tiempo general de comercialización y un tiempo más rápido para obtener valor de las iniciativas de IA en todas las organizaciones dentro del panorama empresarial.