Logo Zéphyrnet

Comment fonctionne la déduplication des données ? –Blog IBM

Date :


Comment fonctionne la déduplication des données ? –Blog IBM



Vue aérienne d'une usine

Ces dernières années ont vu une explosion de la prolifération des unités de self-stockage. Ces grandes unités d’entrepôt sont devenues une industrie en plein essor à l’échelle nationale pour une raison : l’individu moyen possède désormais plus de biens qu’il ne sait quoi en faire.

La même situation fondamentale afflige également le monde de l’informatique. Nous sommes au milieu d’une explosion de données. Même les objets quotidiens relativement simples génèrent désormais systématiquement des données par eux-mêmes grâce à Internet des Objets (IoT) Fonctionnalité. Jamais auparavant dans l’histoire autant de données n’avaient été créées, collectées et analysées. Et jamais autant de gestionnaires de données n’ont été confrontés au problème du stockage d’une telle quantité de données.

Il se peut qu'une entreprise ne parvienne pas, au début, à reconnaître le problème ou l'ampleur qu'il peut prendre, et qu'elle doive alors trouver une solution de stockage accrue. Avec le temps, l’entreprise pourrait également devenir trop grande pour ce système de stockage, ce qui nécessiterait encore plus d’investissements. Inévitablement, l’entreprise se lassera de ce jeu et cherchera une option moins chère et plus simple, ce qui nous amène à déduplication des données.

Bien que de nombreuses organisations utilisent des techniques de déduplication de données (ou « déduplication ») dans le cadre de leur système de gestion de données, elles sont moins nombreuses à comprendre réellement ce qu'est le processus de déduplication et à quoi il est destiné. Alors, démystifions la déduplication et expliquons comment fonctionne la déduplication des données.

À quoi sert la déduplication ?

Tout d’abord, clarifions notre terme principal. La déduplication des données est un processus utilisé par les organisations pour rationaliser leurs bases de données et réduire la quantité de données qu'elles archivent en éliminant les copies redondantes de données.

Par ailleurs, il convient de souligner que lorsque nous parlons de données redondantes, nous parlons en réalité au niveau des fichiers et faisons référence à une prolifération effrénée de fichiers de données. Ainsi, lorsque nous discutons des efforts de déduplication des données, c'est en fait un système de déduplication de fichiers qui est nécessaire.

Quel est l’objectif principal de la déduplication ?

Certaines personnes ont une idée erronée de la nature des données, les considérant comme un produit qui existe simplement pour être collecté et récolté, comme les pommes d'un arbre dans votre propre jardin.

La réalité est que chaque nouveau fichier de données coûte de l’argent. En premier lieu, l’obtention de ces données coûte généralement de l’argent (par l’achat de listes de données). Ou encore, cela nécessite un investissement financier substantiel pour qu'une organisation soit capable de collecter et de glaner des données par elle-même, même s'il s'agit de données que l'organisation elle-même produit et collecte de manière organique. Les ensembles de données constituent donc un investissement et, comme tout investissement précieux, ils doivent être rigoureusement protégés.

Dans ce cas, nous parlons d'espace de stockage de données, que ce soit sous la forme de serveurs matériels sur site ou via stockage cloud via un cloud centre de données... qui doit être acheté ou loué.

Les copies en double des données qui ont été répliquées nuisent donc aux résultats en imposant des coûts de stockage supplémentaires au-delà de ceux associés au système de stockage principal et à son espace de stockage. En bref, davantage de supports de stockage doivent être consacrés pour accueillir à la fois les nouvelles données et les données déjà stockées. À un moment donné dans la trajectoire d’une entreprise, les données en double peuvent facilement devenir un fardeau financier.

En résumé, l’objectif principal de la déduplication des données est d’économiser de l’argent en permettant aux organisations de dépenser moins en stockage supplémentaire.

Avantages supplémentaires de la déduplication

Au-delà de la capacité de stockage, il existe également d'autres raisons pour lesquelles les entreprises adoptent des solutions de déduplication de données, sans doute la plus essentielle étant la protection et l'amélioration des données qu'elles offrent. Les organisations affinent et optimisent les charges de travail de données dédupliquées afin qu'elles fonctionnent plus efficacement que les données regorgeant de fichiers en double.

Un autre aspect important de la déduplication est la manière dont elle contribue à permettre un processus rapide et efficace. catastrophe effort de récupération et minimise la quantité de perte de données qui peut souvent résulter d'un tel événement. La déduplication permet de mettre en place un processus de sauvegarde robuste afin que le système de sauvegarde d'une organisation soit à la hauteur de la tâche de gestion de ses données de sauvegarde. En plus de faciliter les sauvegardes complètes, la déduplication facilite également les efforts de rétention.

Un autre avantage de la déduplication des données réside dans son bon fonctionnement en conjonction avec infrastructure de bureau virtuel (VDI) déploiements, grâce au fait que les disques durs virtuels derrière les postes de travail distants du VDI fonctionnent de manière identique. Populaire Bureau en tant que service (DaaS) les produits incluent Azure Virtual Desktop de Microsoft et son Windows VDI. Ces produits créent machines virtuelles (VM), qui sont créés lors du processus de virtualisation du serveur. À leur tour, ces machines virtuelles renforcent la technologie VDI.

Méthodologie de déduplication

La forme de déduplication de données la plus couramment utilisée est la déduplication par blocs. Cette méthode fonctionne en utilisant des fonctions automatisées pour identifier les duplications dans les blocs de données, puis supprimer ces duplications. En travaillant à ce niveau de bloc, des morceaux de données uniques peuvent être analysés et spécifiés comme méritant d'être validés et préservés. Ensuite, lorsque le logiciel de déduplication détecte une répétition du même bloc de données, cette répétition est supprimée et une référence aux données d'origine est incluse à sa place.

C’est la principale forme de déduplication, mais ce n’est pas la seule méthode. Dans d'autres cas d'utilisation, une autre méthode de déduplication des données fonctionne au niveau du fichier. Le stockage à instance unique compare les copies complètes des données au sein du serveur de fichiers, mais pas les morceaux ou les blocs de données. Comme sa méthode homologue, la déduplication de fichiers dépend de la conservation du fichier d'origine dans le système de fichiers et de la suppression des copies supplémentaires.

Il convient de noter que les techniques de déduplication ne fonctionnent pas tout à fait de la même manière que les algorithmes de compression de données (par exemple LZ77, LZ78), même s'il est vrai que les deux poursuivent le même objectif général : réduire les redondances de données. Les techniques de déduplication y parviennent à une plus grande échelle que les algorithmes de compression, dont l'objectif est moins de remplacer des fichiers identiques par des copies partagées que d'encoder plus efficacement les redondances de données.

Types de déduplication de données

Il existe différents types de déduplication de données selon quand le processus de déduplication se produit :

  • Déduplication en ligne : Cette forme de déduplication des données se produit au moment même, en temps réel, lorsque les données circulent au sein du système de stockage. Le système de déduplication en ligne transporte moins de trafic de données car il ne transfère ni ne stocke les données dupliquées. Cela peut entraîner une réduction de la quantité totale de bande passante nécessaire à cette organisation.
  • Déduplication post-traitement: Ce type de déduplication a lieu une fois que les données ont été écrites et placées sur un type de périphérique de stockage.

Il convient ici d'expliquer que les deux types de déduplication de données sont affectés par les calculs de hachage inhérents à la déduplication de données. Ces cryptographique les calculs font partie intégrante de l’identification de modèles répétés dans les données. Lors des déduplications en ligne, ces calculs sont effectués sur le moment, ce qui peut dominer et temporairement submerger les fonctionnalités de l'ordinateur. Dans les déduplications post-traitement, les calculs de hachage peuvent être effectués à tout moment après l'ajout des données, de manière à ne pas surcharger les ressources informatiques de l'organisation.

Les différences subtiles entre les types de déduplication ne s'arrêtent pas là. Une autre façon de classifier les types de déduplication est basée sur De de tels processus se produisent.

  • Déduplication à la source: Cette forme de déduplication a lieu à proximité de l'endroit où les nouvelles données sont réellement générées. Le système analyse cette zone et détecte de nouvelles copies de fichiers, qui sont ensuite supprimées.
  • Déduplication cible : Un autre type de déduplication s'apparente à une inversion de la déduplication source. Dans la déduplication cible, le système déduplique toutes les copies trouvées dans des zones autres que celles où les données d'origine ont été créées.

Étant donné qu'il existe différents types de déduplication, les organisations tournées vers l'avenir doivent prendre des décisions prudentes et réfléchies concernant le type de déduplication choisi, en équilibrant cette méthode avec les besoins particuliers de chaque entreprise.

Dans de nombreux cas d'utilisation, la méthode de déduplication choisie par une organisation peut très bien se résumer à diverses variables internes, telles que les suivantes :

  • Combien et quel type d’ensembles de données sont créés
  • Le système de stockage principal de l'organisation
  • Quels environnements virtuels sont utilisés
  • Sur quelles applications l'entreprise s'appuie

Développements récents en matière de déduplication de données

Comme toute production informatique, la déduplication des données est sur le point d'utiliser de plus en plus de intelligence artificielle (IA) à mesure qu'il continue d'évoluer. La déduplication deviendra de plus en plus sophistiquée à mesure qu'elle développera encore plus de nuances qui l'aideront à trouver des modèles de redondance à mesure que les blocs de données sont analysés.

Une tendance émergente en matière de déduplication est l’apprentissage par renforcement. Cela utilise un système de récompenses et de pénalités (comme dans la formation par renforcement) et applique une politique optimale pour séparer les enregistrements ou les fusionner.

Une autre tendance à surveiller est l’utilisation de méthodes d’ensemble, dans lesquelles différents modèles ou algorithmes sont utilisés en tandem pour garantir une précision encore plus grande dans le processus de déduplication.

Le dilemme actuel

Le monde informatique est de plus en plus préoccupé par le problème persistant de la prolifération des données et par les mesures à prendre pour y remédier. De nombreuses entreprises se retrouvent dans la position délicate de vouloir simultanément conserver toutes les données qu'elles ont accumulées et de vouloir également stocker leurs nouvelles données débordantes dans n'importe quel conteneur de stockage possible, ne serait-ce que pour les éliminer.

Même si ce dilemme persiste, l’accent sera mis sur les efforts de déduplication des données, car les entreprises considèrent la déduplication comme l’alternative la moins chère à l’achat de davantage de stockage. Car finalement, même si nous comprenons intuitivement que les entreprises ont besoin de données, nous savons aussi que les données nécessitent très souvent une déduplication.

Découvrez comment IBM Storage FlashSystem peut vous aider à répondre à vos besoins de stockage

Cet article a-t-il été utile?

OuiNon


Plus de Cloud




Continuité des activités ou reprise après sinistre : quel plan vous convient le mieux ?

7 min lire - Les plans de continuité des activités et de reprise après sinistre sont des stratégies de gestion des risques sur lesquelles les entreprises s'appuient pour se préparer aux incidents inattendus. Bien que les termes soient étroitement liés, il existe certaines différences clés qui méritent d'être prises en compte lors du choix de celui qui vous convient : Plan de continuité des activités (PCA) : un PCA est un plan détaillé qui décrit les étapes qu'une organisation suivra pour revenir à ses fonctions commerciales normales dans en cas de catastrophe. Alors que d’autres types de plans pourraient se concentrer sur un aspect spécifique de la récupération et de l’interruption…




IBM Tech Now : 29 janvier 2024

<1 min lire - ​Bienvenue à IBM Tech Now, notre série Web de vidéos présentant les dernières et meilleures actualités et annonces du monde de la technologie. Assurez-vous de vous abonner à notre chaîne YouTube pour être averti chaque fois qu'une nouvelle vidéo IBM Tech Now est publiée. IBM Tech Now : Épisode 91 Dans cet épisode, nous abordons les sujets suivants : IBM Think 2024 Réservations IBM Cloud sur les serveurs virtuels IBM Cloud pour le quadrant vert de VPC Verdantix Restez branché Vous pouvez consulter l'IBM…




Prise en charge des réservations : IBM Cloud Virtual Servers for VPC

2 min lire - Alors que les organisations s'efforcent de réduire leurs dépenses dans les environnements cloud d'entreprise, elles sont souvent confrontées au défi d'opter pour des options de paiement universelles via leurs fournisseurs de cloud. Alors que les feuilles de route et les priorités évoluent dans un contexte de réduction du capital et de retour sur investissement resserré, les organisations visent à minimiser les risques liés aux dépenses tout au long de l’année et à créer des environnements budgétaires plus prévisibles. Lorsqu'il s'agit de concevoir vos opérations de cloud computing, une planification avancée s'avère payante avec IBM Cloud Reservations on IBM Cloud Virtual Servers for VPC. Qu'est-ce qu'IBM…




Comment élaborer une stratégie de reprise après sinistre réussie

6 min lire - Que votre secteur soit confronté à des conflits géopolitiques, aux retombées d’une pandémie mondiale ou à une agression croissante dans le domaine de la cybersécurité, le vecteur de menace pour les entreprises modernes est indéniablement puissant. Les stratégies de reprise après sinistre fournissent le cadre permettant aux membres de l’équipe de remettre une entreprise sur pied après un événement imprévu. Dans le monde entier, la popularité des stratégies de reprise après sinistre augmente naturellement. L'année dernière, les entreprises ont dépensé 219 milliards de dollars uniquement pour la cybersécurité et les solutions, soit une augmentation de 12 % par rapport à 2022, selon un récent rapport de…

Bulletins d'information IBM

Recevez nos newsletters et nos mises à jour thématiques qui fournissent les dernières idées en matière de leadership éclairé et d'informations sur les tendances émergentes.

S'abonner

Plus de newsletters

spot_img

Dernières informations

spot_img