Hoe werkt gegevensontdubbeling? - IBM Blog

Hoe werkt gegevensdeduplicatie? – IBM-blog

De afgelopen jaren is er sprake geweest van een explosie in de proliferatie van self-storage-eenheden. Deze grote pakhuizen zijn landelijk ontstaan als een bloeiende industrie, en wel om één reden: de gemiddelde persoon heeft nu meer bezittingen dan hij weet wat hij ermee moet doen.

Dezelfde basissituatie plaagt ook de IT-wereld. We zitten midden in een data-explosie. Zelfs relatief eenvoudige, alledaagse voorwerpen genereren nu routinematig zelfstandig gegevens dankzij Internet of Things (IoT) functionaliteit. Nooit eerder in de geschiedenis zijn er zoveel gegevens gecreëerd, verzameld en geanalyseerd. En nooit eerder hebben meer datamanagers geworsteld met het probleem hoe ze zoveel data moeten opslaan.

Het kan zijn dat een bedrijf in eerste instantie het probleem niet onderkent, of niet weet hoe groot het kan worden, en dan moet dat bedrijf een grotere opslagoplossing vinden. Op termijn kan het bedrijf dat opslagsysteem ontgroeien, waardoor nog meer investeringen nodig zijn. Het is onvermijdelijk dat het bedrijf dit spel beu zal worden en op zoek zal gaan naar een goedkopere en eenvoudigere optie – en dat brengt ons bij gegevensontdubbeling.

Hoewel veel organisaties gebruik maken van technieken voor deduplicatie van gegevens (of 'ontdubbelen') als onderdeel van hun gegevensbeheersysteem, begrijpen lang niet zoveel organisaties echt wat het deduplicatieproces is en waarvoor het bedoeld is. Laten we deduplicatie demystificeren en uitleggen hoe gegevensdeduplicatie werkt.

Wat doet deduplicatie?

Laten we eerst onze hoofdterm verduidelijken. Gegevensontdubbeling is een proces dat organisaties gebruiken om hun gegevensopslag te stroomlijnen en de hoeveelheid gegevens die ze archiveren te verminderen door overtollige kopieën van gegevens te elimineren.

Bovendien moeten we erop wijzen dat als we het hebben over redundante gegevens, we het eigenlijk hebben over bestandsniveau en verwijzen naar een ongebreidelde wildgroei aan gegevensbestanden. Dus als we het hebben over gegevensontdubbeling, is er eigenlijk een bestandsontdubbelingssysteem nodig.

Wat is het belangrijkste doel van deduplicatie?

Sommige mensen hebben een onjuist idee over de aard van gegevens en beschouwen het als een handelsartikel dat eenvoudigweg bestaat om te worden verzameld en geoogst – zoals appels uit een boom uit je eigen achtertuin.

De realiteit is dat elk nieuw gegevensbestand geld kost. In de eerste plaats kost het doorgaans geld om dergelijke data te verkrijgen (door de aanschaf van datalijsten). Of het vereist substantiële financiële investeringen voordat een organisatie zelf gegevens kan verzamelen en verzamelen, zelfs als het gegevens zijn die de organisatie zelf op organische wijze produceert en verzamelt. Datasets zijn daarom een investering en moeten, net als elke waardevolle investering, rigoureus worden beschermd.

In dit geval hebben we het over gegevensopslagruimte, hetzij in de vorm van lokale hardwareservers of via Cloud Storage via een cloudgebaseerd datacenter—die gekocht of gehuurd moeten worden.

Dubbele kopieën van gegevens die zijn gerepliceerd, doen daarom afbreuk aan het resultaat, omdat ze extra opslagkosten met zich meebrengen die verder gaan dan de kosten die verband houden met het primaire opslagsysteem en de opslagruimte ervan. Kortom, er moeten meer opslagmediamiddelen worden ingezet om zowel nieuwe gegevens als reeds opgeslagen gegevens op te slaan. Op een bepaald punt in het traject van een bedrijf kunnen dubbele gegevens gemakkelijk een financiële verplichting worden.

Kortom, het belangrijkste doel van data-deduplicatie is om geld te besparen door organisaties in staat te stellen minder uit te geven aan extra opslagruimte.

Extra voordelen van deduplicatie

Naast opslagcapaciteit zijn er voor bedrijven ook andere redenen om oplossingen voor datadeduplicatie te omarmen – waarschijnlijk geen essentiëler dan de databescherming en -verbetering die ze bieden. Organisaties verfijnen en optimaliseren de werklast van gededupliceerde gegevens, zodat deze efficiënter werken dan gegevens die vol staan met dubbele bestanden.

Een ander belangrijk aspect van dedupe is hoe het helpt een snelle en succesvolle persoon te versterken ramp herstelinspanningen en minimaliseert de hoeveelheid gegevensverlies die vaak het gevolg kan zijn van een dergelijke gebeurtenis. Dedupe helpt een robuust back-upproces mogelijk te maken, zodat het back-upsysteem van een organisatie opgewassen is tegen de taak van het verwerken van de back-upgegevens. Naast hulp bij volledige back-ups helpt dedupe ook bij retentie-inspanningen.

Nog een ander voordeel van gegevensontdubbeling is hoe goed het werkt in combinatie met virtuele desktopinfrastructuur (VDI) implementaties, dankzij het feit dat de virtuele harde schijven achter de externe desktops van de VDI identiek werken. Populair Desktop-as-a-Service (DaaS) producten omvatten Azure Virtual Desktop van Microsoft en zijn Windows VDI. Deze producten creëren virtuele machines (VM's), die worden gemaakt tijdens het servervirtualisatieproces. Op hun beurt versterken deze virtuele machines de VDI-technologie.

Deduplicatiemethode

De meest gebruikte vorm van data-deduplicatie is blok-deduplicatie. Deze methode maakt gebruik van geautomatiseerde functies om duplicaties in gegevensblokken te identificeren en deze duplicaties vervolgens te verwijderen. Door op dit blokniveau te werken, kunnen stukjes unieke data worden geanalyseerd en gespecificeerd als zijnde validatie en behoud waard. Wanneer de deduplicatiesoftware vervolgens een herhaling van hetzelfde datablok detecteert, wordt die herhaling verwijderd en wordt in plaats daarvan een verwijzing naar de originele data opgenomen.

Dat is de belangrijkste vorm van dedupe, maar zeker niet de enige methode. In andere gebruiksgevallen werkt een alternatieve methode voor gegevensontdubbeling op bestandsniveau. Bij opslag met één exemplaar worden volledige kopieën van gegevens binnen de bestandsserver vergeleken, maar geen gegevensblokken of -blokken. Net als de tegenhangermethode is bestandsontdubbeling afhankelijk van het behouden van het originele bestand binnen het bestandssysteem en het verwijderen van extra kopieën.

Opgemerkt moet worden dat deduplicatietechnieken niet helemaal op dezelfde manier werken als algoritmen voor datacompressie (bijvoorbeeld LZ77, LZ78), hoewel het waar is dat beide hetzelfde algemene doel nastreven: het verminderen van dataredundanties. Deduplicatietechnieken bereiken dit op een grotere macroschaal dan compressiealgoritmen, waarvan het doel niet zozeer het vervangen van identieke bestanden door gedeelde kopieën is, maar meer het efficiënter coderen van gegevensredundanties.

Soorten gegevensontdubbeling

Er zijn verschillende soorten gegevensontdubbeling, afhankelijk van wanneer het deduplicatieproces vindt plaats:

Inline-deduplicatie: Deze vorm van gegevensontdubbeling vindt plaats op het moment dat de gegevens binnen het opslagsysteem stromen, in realtime. Het inline dedupesysteem vervoert minder dataverkeer omdat het geen dubbele gegevens overdraagt of opslaat. Dit kan leiden tot een vermindering van de totale hoeveelheid bandbreedte die die organisatie nodig heeft.
Deduplicatie na het proces: Dit type deduplicatie vindt plaats nadat gegevens zijn geschreven en op een bepaald type opslagapparaat zijn geplaatst.

Hier is het de moeite waard om uit te leggen dat beide soorten gegevensontdubbeling worden beïnvloed door de hash-berekeningen die inherent zijn aan gegevensontdubbeling. Deze cryptografische berekeningen zijn een integraal onderdeel van het identificeren van herhaalde patronen in gegevens. Tijdens in-line deduplicaties worden deze berekeningen op het moment uitgevoerd, wat de computerfunctionaliteit kan domineren en tijdelijk kan overweldigen. Bij deduplicatie na verwerking kunnen de hashberekeningen op elk moment worden uitgevoerd nadat de gegevens zijn toegevoegd, op een manier en op een tijdstip dat de computerbronnen van de organisatie niet overbelasten.

De subtiele verschillen tussen deduplicatietypen houden daar niet op. Een andere manier om deduplicatietypen te classificeren is gebaseerd op WAAR dergelijke processen plaatsvinden.

Bronontdubbeling: Deze vorm van deduplicatie vindt plaats dichtbij de plek waar daadwerkelijk nieuwe data worden gegenereerd. Het systeem scant dat gebied en detecteert nieuwe kopieën van bestanden, die vervolgens worden verwijderd.
Doelontdubbeling: Een ander type deduplicatie is als een inversie van brondeduplicatie. Bij doelontdubbeling dedupliceert het systeem alle kopieën die zich in andere gebieden bevinden dan waar de oorspronkelijke gegevens zijn gemaakt.

Omdat er verschillende soorten deduplicatie worden toegepast, moeten vooruitstrevende organisaties zorgvuldige en weloverwogen beslissingen nemen over het gekozen type deduplicatie, waarbij die methode moet worden afgewogen tegen de specifieke behoeften van het bedrijf.

In veel gebruikssituaties kan de deduplicatiemethode van een organisatie heel goed neerkomen op een verscheidenheid aan interne variabelen, zoals de volgende:

Hoeveel en welk type datasets worden er gemaakt?
Het primaire opslagsysteem van de organisatie
Welke virtuele omgevingen zijn in gebruik
Op welke apps het bedrijf vertrouwt

Recente ontwikkelingen op het gebied van gegevensontdubbeling

Net als alle andere computeruitvoer zal er steeds meer gebruik worden gemaakt van deduplicatie van gegevens kunstmatige intelligentie (AI) terwijl het blijft evolueren. Dedupe zal steeds geavanceerder worden naarmate het nog meer nuances ontwikkelt die het helpen bij het zoeken naar redundantiepatronen wanneer gegevensblokken worden gescand.

Een opkomende trend in dedupe is versterkend leren. Dit maakt gebruik van een systeem van beloningen en straffen (zoals bij versterkingstraining) en past een optimaal beleid toe voor het scheiden of samenvoegen van records.

Een andere trend die het bekijken waard is, is het gebruik van ensemblemethoden, waarbij verschillende modellen of algoritmen naast elkaar worden gebruikt om een nog grotere nauwkeurigheid binnen het dedupeproces te garanderen.

Het voortdurende dilemma

De IT-wereld raakt steeds meer gefixeerd op de aanhoudende kwestie van dataproliferatie en wat eraan te doen. Veel bedrijven bevinden zich in de lastige positie dat ze tegelijkertijd alle gegevens willen bewaren die ze hebben verzameld en hun overvolle nieuwe gegevens in elke mogelijke opslagcontainer willen stoppen, al was het maar om ze uit de weg te ruimen.

Hoewel een dergelijk dilemma blijft bestaan, zal de nadruk op inspanningen voor gegevensdeduplicatie blijven bestaan, omdat organisaties deduplicatie zien als het goedkopere alternatief voor de aanschaf van meer opslagruimte. Want hoewel we intuïtief begrijpen dat bedrijven data nodig hebben, weten we uiteindelijk ook dat data vaak deduplicatie vereisen.

Ontdek hoe IBM Storage FlashSystem u kan helpen met uw opslagbehoeften

Was dit artikel behulpzaam?

JaNee

Meer van Cloud

29 januari 2024

Bedrijfscontinuïteit versus noodherstel: welk plan is het beste voor u?

7 min gelezen - Bedrijfscontinuïteit- en noodherstelplannen zijn risicobeheerstrategieën waarop bedrijven vertrouwen om zich voor te bereiden op onverwachte incidenten. Hoewel de termen nauw met elkaar verband houden, zijn er enkele belangrijke verschillen die de moeite waard zijn om te overwegen bij het kiezen van het juiste voor u: Bedrijfscontinuïteitsplan (BCP): Een BCP is een gedetailleerd plan dat de stappen schetst die een organisatie zal nemen om terug te keren naar de normale bedrijfsfuncties in de toekomst. het geval van een ramp. Waar andere soorten plannen zich zouden kunnen concentreren op één specifiek aspect van herstel en onderbreking…

29 januari 2024

IBM Tech Now: 29 januari 2024

<1 min gelezen - Welkom IBM Tech Now, onze videowebserie met het laatste en beste nieuws en aankondigingen in de wereld van technologie. Zorg ervoor dat u zich abonneert op ons YouTube-kanaal, zodat u op de hoogte wordt gehouden telkens wanneer er een nieuwe IBM Tech Now-video wordt gepubliceerd. IBM Tech Now: aflevering 91 In deze aflevering behandelen we de volgende onderwerpen: IBM Think 2024 IBM Cloud-reserveringen op IBM Cloud Virtual Servers voor VPC Verdantix's Green Quadrant Blijf aangesloten U kunt de IBM…

Man met bril zittend op een stoel met gekruiste benen en één hand op het toetsenbord van een opengeklapte laptop

22 januari 2024

Neemt nu reserveringen aan: IBM Cloud Virtual Servers voor VPC

2 min gelezen - Terwijl organisaties proberen de uitgaven binnen zakelijke cloudomgevingen terug te dringen, worden ze vaak geconfronteerd met de uitdaging om one-size-fits-all betalingsopties via hun cloudproviders te bieden. Terwijl routekaarten en prioriteiten verschuiven tegen de achtergrond van minder kapitaal en krappere ROI's, streven organisaties ernaar het uitgavenrisico het hele jaar door te minimaliseren en een voorspelbaarder budgetteringsklimaat te creëren. Als het gaat om het ontwerpen van uw cloud computing-activiteiten, loont geavanceerde planning de moeite met IBM Cloud Reservations op IBM Cloud Virtual Servers for VPC. Wat zijn IBM…

19 januari 2024

Hoe u een succesvolle strategie voor noodherstel opbouwt

6 min gelezen - Of uw sector nu te maken krijgt met uitdagingen als gevolg van geopolitieke conflicten, de gevolgen van een wereldwijde pandemie of toenemende agressie op het gebied van cyberbeveiliging, de dreigingsvector voor moderne ondernemingen is onmiskenbaar krachtig. Rampherstelstrategieën bieden teamleden het raamwerk om een bedrijf weer operationeel te krijgen na een ongeplande gebeurtenis. Wereldwijd neemt de populariteit van disaster recovery-strategieën begrijpelijkerwijs toe. Vorig jaar gaven bedrijven alleen al 219 miljard dollar uit aan cyberbeveiliging en oplossingen, een stijging van 12% ten opzichte van 2022, volgens een recent rapport van…

IBM-nieuwsbrieven

Ontvang onze nieuwsbrieven en onderwerpupdates die de nieuwste thought leadership en inzichten over opkomende trends bieden.

Abonneer nu

Meer nieuwsbrieven

Door SEO aangedreven content en PR-distributie. Word vandaag nog versterkt.
PlatoData.Network Verticale generatieve AI. Versterk jezelf. Toegang hier.
PlatoAiStream. Web3-intelligentie. Kennis versterkt. Toegang hier.
PlatoESG. carbon, CleanTech, Energie, Milieu, Zonne, Afvalbeheer. Toegang hier.
Plato Gezondheid. Intelligentie op het gebied van biotech en klinische proeven. Toegang hier.
Bron: https://www.ibm.com/blog/how-does-data-deduplication-work/

Generatieve data-intelligentie

Hoe werkt gegevensdeduplicatie? – IBM-blog

Wat doet deduplicatie?

Wat is het belangrijkste doel van deduplicatie?

Extra voordelen van deduplicatie

Deduplicatiemethode

Soorten gegevensontdubbeling

Recente ontwikkelingen op het gebied van gegevensontdubbeling

Het voortdurende dilemma

Meer van Cloud

Bedrijfscontinuïteit versus noodherstel: welk plan is het beste voor u?

IBM Tech Now: 29 januari 2024

Neemt nu reserveringen aan: IBM Cloud Virtual Servers voor VPC

Hoe u een succesvolle strategie voor noodherstel opbouwt

IBM-nieuwsbrieven

Wetenschappers schudden lithiumextractie op met een ander soort chemie: CleanTechnica

Waarom verspreidt PBS anti-EV FUD? – CleanTechnica

Laatste intelligentie

Bitcoin leidt 30-daagse NFT-verkopen en overtreft 24 Blockchain-concurrenten

De geweldige technische verhalen van deze week van overal op internet (tot en met 27 april)

Prioriteit geven aan first-mover-voordeel boven beveiliging zorgt ervoor dat defi-protocollen kwetsbaar zijn voor hacks – Nikita Ovchinnik

HKTDC onthult evenementen voor geschenken, drukwerk, verpakkingen en licenties

Carlie Hanson brengt hulde met haar oprechte cover van Alice In Chains' 'Nutshell'

Hyundai gaat meer hybrides bouwen om de afnemende vraag naar elektrische voertuigen aan te vullen – Autoblog