Logotipo de Zephyrnet

Ponga los datos en primer lugar al implementar el almacenamiento de archivos escalable para sistemas acelerados

Fecha:

Patrocinado Es fácil pasar mucho tiempo pensando en la computación y la interconexión en cualquier tipo de carga de trabajo de computación de alto rendimiento, y es difícil no perder tanto tiempo pensando en el almacenamiento que soporta esa carga de trabajo. Es particularmente importante pensar en el tipo y volumen de datos que se incorporarán a estas aplicaciones porque esto, más que cualquier otro factor, determinará el éxito o el fracaso de esa carga de trabajo para satisfacer las necesidades de la organización.

Está de moda en estos días tener una mentalidad de "nube primero" cuando se trata de infraestructura de TI, pero lo que las organizaciones realmente necesitan es una actitud de "datos primero" y luego darse cuenta de que la nube es solo un modelo de implementación con un esquema de precios y, tal vez, - una reserva de recursos más profunda de la que muchas organizaciones están acostumbradas. Pero esas piscinas profundas tienen un costo. Es bastante económico mover datos a las nubes o generarlos allí y mantenerlos allí; sin embargo, puede resultar exorbitantemente caro mover datos desde una nube para poder utilizarlos en otros lugares.

Las nuevas clases de aplicaciones HPC, como la capacitación en aprendizaje automático y el análisis de datos que se ejecutan a escala, tienden a alimentarse o crear grandes conjuntos de datos, por lo que es importante tener esta actitud ante los datos a medida que se diseña el sistema. Lo único que no desea hacer es averiguar en algún lugar entre la prueba de concepto y la producción que tiene el almacenamiento incorrecto, o peor aún, descubrir que su almacenamiento no puede mantenerse al día con los datos a medida que ingresa una nueva carga de trabajo. producción y es un gran éxito.

“Cuando se agrega hardware de almacenamiento como una solución rápida sin una estrategia bien pensada en torno a los requisitos actuales y futuros, a menudo surgen problemas”, dice Brian Henderson, director de marketing de productos de almacenamiento de datos no estructurados en Dell Technologies. “Las organizaciones compran algunos servidores, conectan algo de almacenamiento, lanzan el proyecto y ven cómo funciona. Este tipo de enfoque conduce muy a menudo a problemas de escala, problemas de rendimiento, problemas para compartir los datos. Lo que estas organizaciones necesitan es una solución de almacenamiento de archivos escalable y flexible que les permita contener todos sus datos dispares y conectarlos para que las partes interesadas y las aplicaciones puedan acceder y compartirlos rápida y fácilmente ”.

Por lo tanto, es importante considerar algunos requisitos clave de almacenamiento de datos antes de que los componentes informáticos y de red se establezcan en piedra en una orden de compra.

Lo primero que debe considerar es la escala, y debe asumir la escala desde el principio y luego encontrar un sistema que pueda comenzar con un tamaño pequeño pero que crezca lo suficiente como para contener los datos y servir a sistemas y tipos de datos dispares.

Aunque probablemente sea posible confiar en el almacenamiento interno o en una mezcolanza de almacenamiento adjunto a sistemas o clústeres, las cargas de trabajo de HPC e IA suelen ser aceleradas por las GPU de NVIDIA. Es mejor asumir que la computación, el almacenamiento y las redes tendrán que escalar a medida que las cargas de trabajo y los conjuntos de datos crezcan y proliferen. Hay muchos vectores de crecimiento diferentes a considerar y olvidar cualquiera de ellos puede generar problemas de capacidad y rendimiento en el futuro.

Y hay un elemento aún más sutil en este problema de escala de almacenamiento que debe tenerse en cuenta. Los datos se archivan para los sistemas HPC y AI. Las aplicaciones de HPC toman pequeñas cantidades de condiciones iniciales y crean una simulación y visualización masiva que revela algo sobre el mundo real, mientras que los sistemas de IA toman cantidades masivas de información, generalmente una combinación de datos estructurados y no estructurados, y la destilan en un modelo que puede ser utilizado para analizar el mundo real o reaccionar ante él. Estos conjuntos de datos iniciales y sus modelos deben conservarse por motivos comerciales, así como por el gobierno de datos y el cumplimiento normativo.

No puede tirar estos datos incluso si lo desea

“No puede tirar estos datos aunque lo desee”, dice Thomas Henson, quien es gerente de desarrollo comercial global para inteligencia artificial y análisis para el equipo de Soluciones de datos no estructurados en Dell Technologies. “No importa cuál sea la industria vertical (automotriz, atención médica, transporte, servicios financieros), es posible que encuentre un defecto en los algoritmos y los litigios sean un problema. Tendrá que mostrar los datos que se introdujeron en los algoritmos que produjeron el resultado defectuoso o demostrar que no fue así. Hasta cierto punto, el valor de ese algoritmo son los datos que se introdujeron en él. Y ese es solo un pequeño ejemplo ".

Por lo tanto, para los sistemas híbridos de CPU y GPU, probablemente sea mejor asumir que el almacenamiento local en las máquinas no será suficiente y que se necesitará un almacenamiento externo capaz de contener muchos datos no estructurados. Por razones económicas, dado que la IA y algunos proyectos de HPC todavía se encuentran en fases de prueba de concepto, será útil comenzar con algo pequeño y poder escalar la capacidad y el rendimiento rápidamente y en vectores independientes, si es necesario.

Los arreglos todo flash PowerScale que ejecutan el sistema de archivos OneFS de Dell Technologies se ajustan a este perfil de almacenamiento. El sistema base viene en una configuración de tres nodos que tiene hasta 11 TB de almacenamiento sin procesar y un precio modesto por debajo de seis cifras, y ha sido probado en los laboratorios hasta 250 nodos en un clúster de almacenamiento compartido que puede contener hasta 96 PB. de datos. Y Dell Technologies tiene clientes que ejecutan arreglos PowerScale a una escala mucho mayor que esta, por cierto, pero a menudo generan clústeres separados para reducir el área potencial de explosión de una interrupción. Lo cual es extremadamente raro.

PowerScale se puede implementar en las instalaciones o se puede extender a una serie de nubes públicas con opciones integradas en la nube nativa o de múltiples nubes, donde los clientes pueden aprovechar la computación adicional u otros servicios nativos de la nube.

El rendimiento es la otra parte de la escala que las empresas deben tener en cuenta, y esto es particularmente importante cuando las GPU aceleran los sistemas. Desde los primeros días de la computación de GPU, NVIDIA ha trabajado para eliminar la CPU y su memoria y evitar que se convierta en el cuello de botella que impide que las GPU compartan datos (GPUDirect) mientras ejecutan sus simulaciones o construyen sus modelos o que evita que las GPU accedan al almacenamiento a la velocidad del rayo (GPUDirect Storage).

Si el almacenamiento externo es una necesidad para tales sistemas acelerados por GPU, no hay forma de que los servidores con cuatro u ocho GPU tengan suficiente almacenamiento para almacenar los conjuntos de datos que procesan la mayoría de las aplicaciones de HPC y AI, entonces parece claro que sea lo que sea que el almacenamiento tenga que hablar. GPUDirect Storage y habla rápido.

El poseedor del récord anterior fue Pavilion Data, que probó una matriz de almacenamiento de 2.2 PB y pudo leer datos en un sistema DGX-A100 basado en las nuevas GPU "Ampere" A100 a 191 GB / seg en modo de archivo. En el laboratorio, Dell Technologies está dando los toques finales a sus pruebas de referencia de almacenamiento GPUDirect que se ejecutan en arreglos PowerScale y dice que puede impulsar el rendimiento considerablemente más alto, al menos a 252 GB / seg. Y dado que PowerScale puede escalar a 252 nodos en un solo espacio de nombres, no se detiene ahí y puede escalar mucho más allá de eso si es necesario.

"El punto es que sabemos cómo optimizar para estos entornos de cómputo de GPU", dice Henderson. Y aquí hay una declaración más general sobre el rendimiento de los sistemas acelerados por GPU que ejecutan cargas de trabajo de IA y cómo funciona el almacenamiento PowerScale:

La amplitud del soporte para varios tipos de sistemas es otra cosa a considerar al diseñar un sistema híbrido CPU-GPU. La naturaleza misma del almacenamiento compartido debe compartirse y es importante poder utilizar los datos del almacenamiento compartido para otras aplicaciones. Los arreglos PowerScale se han integrado con más de 250 aplicaciones y están certificados como compatibles con muchos tipos de sistemas. Esta es una de las razones por las que el almacenamiento de Isilon y PowerScale tiene más de 15,000 clientes en todo el mundo.

La informática de alto rendimiento es más que rendimiento, particularmente en un entorno empresarial donde los recursos están limitados y tener el control de los sistemas y los datos es absolutamente crítico. Entonces, lo siguiente que se debe considerar al diseñar la arquitectura del almacenamiento para sistemas acelerados por GPU es la administración del almacenamiento.

Equipado

En este frente, Dell Technologies aporta una serie de herramientas a la fiesta. El primero es InsightIQ, que realiza un seguimiento y generación de informes de almacenamiento muy específicos y detallados para PowerScale y su predecesor, el arreglo de almacenamiento Isilon.

Otra herramienta se llama NubeIQ, que utiliza técnicas de aprendizaje automático y análisis predictivo que monitorea y ayuda a administrar la gama completa de productos de infraestructura de Dell Technologies, incluidos PowerStore, PowerMax, PowerScale, PowerVault, Unity XT, XtremIO y SC Series, así como servidores PowerEdge y convergentes e hiperconvergentes. plataformas como VxBlock, VxRail y PowerFlex.

Y finalmente, hay DatosIQ, un software de gestión de conjuntos de datos y monitoreo de almacenamiento para datos no estructurados que proporciona una vista unificada de conjuntos de datos no estructurados en arreglos PowerScale, PowerMax y PowerStore, así como almacenamiento en la nube de las grandes nubes públicas. DataIQ no solo le muestra los conjuntos de datos no estructurados, sino que también realiza un seguimiento de cómo se utilizan y los mueve al almacenamiento más apropiado, por ejemplo, sistemas de archivos locales o almacenamiento de objetos basado en la nube.

La última consideración es la confiabilidad y la protección de datos, que van de la mano en cualquier plataforma de almacenamiento de nivel empresarial. Los arreglos PowerScale tienen su herencia en Isilon y su sistema de archivos OneFS, que ha existido durante mucho tiempo y que ha sido de confianza en instituciones HPC empresariales, gubernamentales y académicas durante dos décadas. OneFS y su hardware PowerScale subyacente están diseñados para ofrecer hasta un 99.9999 por ciento de disponibilidad, mientras que la mayoría de los servicios de almacenamiento en la nube que manejan datos no estructurados tienen la suerte de tener acuerdos de servicio para el 99.9 por ciento de disponibilidad. El primero tiene 31 segundos de tiempo de inactividad al año, mientras que el segundo está fuera de línea ocho horas y 46 minutos.

Además, PowerScale está diseñado para brindar un buen rendimiento y mantener el acceso a los datos, incluso si algunos de los nodos del clúster de almacenamiento están inactivos por mantenimiento o reparación después de una falla de un componente. (Después de todo, las fallas de componentes son inevitables para todos los equipos de TI).

Pero hay otro tipo de resistencia que se está volviendo cada vez más importante en estos días: la recuperación de ataques de ransomware.

"Tenemos protección contra ransomware integrada con API para Escala de potencia que detectará comportamientos sospechosos en el sistema de archivos OneFS y alertará a los administradores sobre ello ”, dice Henderson. “Y muchos de nuestros clientes están implementando una configuración de clúster con espacio de aire físicamente separado para mantener una copia separada de todos sus datos. En el caso de un ciberataque, simplemente apaga el almacenamiento de producción y tiene sus datos, y no está intentando restaurar desde copias de seguridad o archivos, lo que podría llevar días o semanas, especialmente si está restaurando desde archivos en la nube. Una vez que hable de petabytes de datos, eso podría llevar meses.

“Podemos restaurar rápidamente, a velocidades de replicación de almacenamiento, lo cual es muy, muy rápido. Y tiene opciones para alojar su solución de defensa contra ransomware en entornos de múltiples nubes donde puede recuperar sus datos de un evento cibernético aprovechando una nube pública ".

Patrocinado por Dell.

PlatoAi. Web3 reinventado. Inteligencia de datos ampliada.
Haga clic aquí para acceder.

Fuente: https://go.theregister.com/feed/www.theregister.com/2021/10/12/data_first_dell/

punto_img

Información más reciente

punto_img

Habla con nosotros!

¡Hola! ¿Le puedo ayudar en algo?