Logo Zéphyrnet

Donnez la priorité aux données lors du déploiement d'un stockage de fichiers évolutif pour des systèmes accélérés

Date :

Sponsorisé Il est facile de passer beaucoup de temps à penser au calcul et à l'interconnexion dans n'importe quel type de charge de travail informatique hautes performances, et difficile de ne pas passer autant de temps à penser au stockage prenant en charge cette charge de travail. Il est particulièrement important de penser au type et au volume des données qui alimenteront ces applications car cela, plus que tout autre facteur, déterminera le succès ou l'échec de cette charge de travail pour répondre aux besoins de l'organisation.

Il est à la mode ces jours-ci d'avoir une mentalité de « cloud d'abord » lorsqu'il s'agit d'infrastructure informatique, mais ce dont les organisations ont vraiment besoin, c'est d'une attitude de « données d'abord » et de réaliser ensuite que le cloud n'est qu'un modèle de déploiement avec un schéma de tarification et – peut-être – un pool de ressources plus important que celui auquel de nombreuses organisations sont habituées. Mais ces piscines profondes ont un coût. Il est assez bon marché de déplacer des données dans des nuages ​​ou de les y générer et de les y conserver ; Cependant, il peut être extrêmement coûteux de déplacer des données depuis un cloud afin qu'elles puissent être utilisées ailleurs.

Les nouvelles classes d'applications HPC, telles que la formation en machine learning et l'analyse de données à grande échelle, ont tendance à se nourrir ou à créer de grands ensembles de données. La seule chose que vous ne voulez pas faire est de découvrir quelque part entre la preuve de concept et la production que vous avez le mauvais stockage - ou pire encore, découvrir que votre stockage ne peut pas suivre les données alors qu'une nouvelle charge de travail arrive. production et est un succès fou.

« Lorsque du matériel de stockage est ajouté en tant que solution rapide sans stratégie bien pensée concernant les exigences actuelles et futures, des problèmes surviennent souvent », déclare Brian Henderson, directeur du marketing des produits de stockage de données non structurées chez Dell Technologies. « Les organisations achètent des serveurs, attachent du stockage, lancent le projet et voient comment ça se passe. Ce type d'approche conduit très souvent à des problèmes d'échelle, des problèmes de performance, des problèmes de partage des données. Ce dont ces organisations ont besoin, c'est d'une solution de stockage de fichiers flexible et évolutive qui leur permet de contenir toutes leurs données disparates et de les connecter toutes afin que les parties prenantes et les applications puissent toutes y accéder et les partager rapidement et facilement.

Il est donc important de prendre en compte certaines exigences clés en matière de stockage de données avant que les composants de calcul et de mise en réseau ne soient gravés dans le marbre dans un bon de commande.

La première chose à considérer est l'échelle, et vous devez supposer l'échelle dès le départ, puis trouver un système qui peut commencer petit mais devenir suffisamment grand pour contenir les données et servir des systèmes et des types de données disparates.

Bien qu'il soit probablement possible de s'appuyer sur un stockage interne ou un méli-mélo de stockage attaché à des systèmes ou des clusters, les charges de travail HPC et AI sont le plus souvent accélérées par les GPU de NVIDIA. Il est préférable de supposer que le calcul, le stockage et la mise en réseau devront évoluer à mesure que les charges de travail et les ensembles de données augmentent et prolifèrent. Il existe de nombreux vecteurs de croissance différents à prendre en compte et l'oubli de l'un d'entre eux peut entraîner des problèmes de capacité et de performances à terme.

Et il y a un élément encore plus subtil à ce problème d'échelle de stockage qui devrait être pris en compte. Les données sont archivées pour les systèmes HPC et AI. Les applications HPC prennent de petites quantités de conditions initiales et créent une simulation et une visualisation massives qui révèlent quelque chose sur le monde réel, tandis que les systèmes d'IA prennent des quantités massives d'informations - généralement un mélange de données structurées et non structurées - et les distillent dans un modèle qui peut être utilisé pour analyser le monde réel ou y réagir. Ces ensembles de données initiaux et leurs modèles doivent être préservés pour des raisons commerciales ainsi que pour la gouvernance des données et la conformité réglementaire.

Vous ne pouvez pas jeter ces données même si vous voulez

« Vous ne pouvez pas jeter ces données même si vous le souhaitez », déclare Thomas Henson, responsable du développement commercial mondial pour l'IA et l'analyse pour l'équipe des solutions de données non structurées chez Dell Technologies. « Quel que soit l'industrie verticale - automobile, soins de santé, transports, services financiers - vous pourriez trouver un défaut dans les algorithmes et les litiges sont un problème. Vous devrez montrer les données qui ont été introduites dans les algorithmes qui ont produit le résultat défectueux ou prouver que ce n'est pas le cas. Dans une certaine mesure, la valeur de cet algorithme réside dans les données qui y ont été introduites. Et ce n'est qu'un petit exemple.

Ainsi, pour les systèmes hybrides CPU-GPU, il est probablement préférable de supposer que le stockage local sur les machines ne suffira pas et qu'un stockage externe capable de contenir de nombreuses données non structurées sera nécessaire. Pour des raisons économiques, comme l'IA et certains projets HPC sont encore en phase de validation de principe, il sera utile de commencer petit et de pouvoir faire évoluer la capacité et les performances rapidement et sur des vecteurs indépendants, si besoin est.

Les baies 11 % flash PowerScale exécutant le système de fichiers OneFS de Dell Technologies correspondent à ce profil de stockage. Le système de base est proposé dans une configuration à trois nœuds offrant jusqu'à 250 To de stockage brut et un prix modeste inférieur à six chiffres, et a été testé en laboratoire jusqu'à 96 nœuds dans un cluster de stockage partagé pouvant contenir jusqu'à XNUMX Po de données. Et Dell Technologies a des clients qui exécutent des baies PowerScale à une échelle beaucoup plus élevée que celle-ci, soit dit en passant, mais ils génèrent souvent des clusters séparés pour réduire la zone d'explosion potentielle d'une panne. Ce qui est extrêmement rare.

PowerScale peut être déployé sur site ou étendu à un certain nombre de clouds publics avec des options intégrées multi-cloud ou cloud natif où les clients peuvent profiter de services de calcul supplémentaires ou d'autres services cloud natifs.

Les performances sont l'autre partie de l'échelle que les entreprises doivent prendre en compte, et cela est particulièrement important lorsque les systèmes sont accélérés par les GPU. Depuis les premiers jours du calcul GPU, NVIDIA s'est efforcé d'éliminer le processeur et sa mémoire et de l'empêcher de devenir le goulot d'étranglement qui empêche les GPU de partager des données (GPUDirect) lorsqu'ils exécutent leurs simulations ou construisent leurs modèles ou qui empêche les GPU d'accéder rapidement au stockage (GPUDirect Storage).

Si le stockage externe est une nécessité pour de tels systèmes accélérés par GPU - il n'y a aucun moyen que les serveurs avec quatre ou huit GPU aient suffisamment de stockage pour contenir les ensembles de données que la plupart des applications HPC et AI traitent - alors il semble clair que quel que soit ce stockage doit parler GPUDirect Storage et parlez-le rapidement.

Le précédent détenteur du record était Pavilion Data, qui a testé une matrice de stockage de 2.2 Po et a pu lire les données dans un système DGX-A100 basé sur les nouveaux GPU « Ampere » A100 à 191 Go/s en mode fichier. En laboratoire, Dell Technologies met la touche finale à ses tests de référence de stockage GPUDirect exécutés sur des baies PowerScale et affirme qu'il peut augmenter considérablement les performances, au moins jusqu'à 252 Go/s. Et puisque PowerScale peut évoluer jusqu'à 252 nœuds dans un seul espace de noms, il ne s'arrête pas là et peut évoluer bien au-delà si nécessaire.

« Le fait est que nous savons comment optimiser ces environnements de calcul GPU », déclare Henderson. Et voici une déclaration plus générale sur les performances des systèmes accélérés par GPU exécutant des charges de travail AI et sur les performances du stockage PowerScale :

L'étendue de la prise en charge de divers types de systèmes est un autre élément à prendre en compte lors de l'architecture d'un système hybride CPU-GPU. La nature même du stockage partagé est d'être partagé, et il est important de pouvoir utiliser les données du stockage partagé pour d'autres applications. Les baies PowerScale ont été intégrées à plus de 250 applications et sont certifiées comme prises en charge sur de nombreux types de systèmes. C'est l'une des raisons pour lesquelles le stockage Isilon et PowerScale compte plus de 15,000 XNUMX clients dans le monde.

Le calcul haute performance va au-delà de la performance, en particulier dans un environnement d'entreprise où les ressources sont limitées et où le contrôle des systèmes et des données est absolument essentiel. Ainsi, la prochaine chose à prendre en compte dans l'architecture du stockage pour les systèmes accélérés par GPU est la gestion du stockage.

Outillé

Sur ce front, Dell Technologies apporte un certain nombre d'outils à la fête. Le premier est InsightIQ, qui effectue une surveillance et des rapports de stockage très spécifiques et détaillés pour PowerScale et son prédécesseur, la baie de stockage Isilon.

Un autre outil s'appelle CloudIQ, qui utilise des techniques d'apprentissage automatique et d'analyse prédictive qui surveillent et aident à gérer la gamme complète de produits d'infrastructure Dell Technologies, notamment PowerStore, PowerMax, PowerScale, PowerVault, Unity XT, XtremIO et SC Series, ainsi que les serveurs PowerEdge et les serveurs convergés et hyperconvergés plates-formes telles que VxBlock, VxRail et PowerFlex.

Et enfin, il y a DataIQ, un logiciel de surveillance du stockage et de gestion des ensembles de données pour les données non structurées qui fournit une vue unifiée des ensembles de données non structurés sur les baies PowerScale, PowerMax et PowerStore ainsi que le stockage dans le cloud à partir des grands clouds publics. DataIQ ne vous montre pas seulement les ensembles de données non structurés, mais garde également une trace de leur utilisation et les déplace vers le stockage le plus approprié, par exemple, les systèmes de fichiers sur site ou le stockage d'objets basé sur le cloud.

La dernière considération est la fiabilité et la protection des données, qui vont de pair dans toute plate-forme de stockage de niveau entreprise. Les baies PowerScale ont leur héritage dans Isilon et son système de fichiers OneFS, qui existe depuis longtemps et auquel les entreprises, les gouvernements et les institutions HPC universitaires font confiance depuis deux décennies. OneFS et son matériel PowerScale sous-jacent sont conçus pour offrir jusqu'à 99.9999% de disponibilité, tandis que la plupart des services de stockage cloud qui gèrent des données non structurées ont la chance d'avoir des accords de service pour une disponibilité de 99.9%. Le premier a 31 secondes de temps d'arrêt par an, tandis que le second est hors ligne pendant huit heures et 46 minutes.

De plus, PowerScale est conçu pour offrir de bonnes performances et maintenir l'accès aux données même si certains nœuds du cluster de stockage sont en panne pour maintenance ou en réparation après une panne de composant. (Les pannes de composants sont inévitables pour tous les équipements informatiques, après tout.)

Mais il existe un autre type de résilience qui devient de plus en plus important de nos jours : la récupération après les attaques de ransomware.

« Nous avons une protection contre les ransomwares intégrée à l'API pour Échelle de puissance qui détectera les comportements suspects sur le système de fichiers OneFS et alertera les administrateurs à ce sujet », explique Henderson. « Et beaucoup de nos clients mettent en œuvre une configuration de cluster séparée physiquement et à espace d'air pour conserver une copie distincte de toutes leurs données. En cas de cyberattaque, vous venez de fermer le stockage de production et vous avez vos données, et vous n'essayez pas de restaurer à partir de sauvegardes ou d'archives, ce qui peut prendre des jours ou des semaines, en particulier si vous restaurez à partir d'archives cloud. Une fois que vous parlez de pétaoctets de données, cela peut prendre des mois.

« Nous pouvons restaurer rapidement, à des vitesses de réplication de stockage, ce qui est très, très rapide. Et vous avez la possibilité d'héberger votre solution de défense contre les ransomwares dans des environnements multi-cloud où vous pouvez récupérer vos données à partir d'un cyberévénement en tirant parti d'un cloud public.

Commandité par Dell.

PlatonAi. Web3 réinventé. L'intelligence des données amplifiée.
Cliquez ici pour y accéder.

Source : https://go.theregister.com/feed/www.theregister.com/2021/10/12/data_first_dell/

spot_img

Dernières informations

spot_img