Zephyrnet-logotyp

Hur fungerar datadeduplicering? – IBM Blogg

Datum:


Hur fungerar datadeduplicering? – IBM Blogg



Ovanifrånbild av en fabrik

De senaste åren har vi sett en explosion i spridningen av självlagringsenheter. Dessa stora lagerenheter har vuxit upp nationellt som en blomstrande industri på grund av en anledning - den genomsnittliga personen har nu fler ägodelar än de vet vad de ska göra med.

Samma grundsituation plågar också IT-världen. Vi är mitt i en explosion av data. Även relativt enkla, vardagliga föremål genererar nu rutinmässigt data på egen hand tack vare Internet av saker (IoT) funktionalitet. Aldrig tidigare i historien har så mycket data skapats, samlats in och analyserats. Och aldrig tidigare har fler datahanterare brottats med problemet med hur man lagrar så mycket data.

Ett företag kan initialt misslyckas med att känna igen problemet eller hur stort det kan bli, och sedan måste företaget hitta en utökad lagringslösning. Med tiden kan företaget också växa ur det lagringssystemet, vilket kräver ännu mer investeringar. Oundvikligen kommer företaget att tröttna på det här spelet och kommer att söka ett billigare och enklare alternativ – vilket för oss till dataduplicering.

Även om många organisationer använder sig av datadedupliceringstekniker (eller "dedupe") som en del av sitt datahanteringssystem, är det inte alls lika många som verkligen förstår vad dedupliceringsprocessen är och vad den är avsedd att göra. Så låt oss avmystifiera dedupering och förklara hur datadeduplicering fungerar.

Vad gör deduplicering?

Låt oss först förtydliga vår huvudterm. Datadeduplicering är en process som organisationer använder för att effektivisera sina datalagringar och minska mängden data som de arkiverar genom att eliminera redundanta kopior av data.

Dessutom bör vi påpeka att när vi talar om redundant data, talar vi faktiskt på filnivå och hänvisar till en skenande spridning av datafiler. Så när vi diskuterar insatser för deduplicering av data är det faktiskt ett fildedupliceringssystem som behövs.

Vad är huvudmålet med deduplicering?

Vissa människor har en felaktig uppfattning om datas natur och ser det som en vara som helt enkelt existerar för att samlas in och skördas – som äpplen från ett träd från din egen bakgård.

Verkligheten är att varje ny fil med data kostar pengar. I första hand brukar det kosta pengar att skaffa sådan data (genom köp av datalistor). Eller så krävs det stora ekonomiska investeringar för att en organisation ska kunna samla in och samla in data på egen hand, även om det är data som organisationen själv producerar och samlar in. Datauppsättningar är därför en investering, och precis som alla värdefulla investeringar måste de skyddas strikt.

I det här fallet talar vi om datalagringsutrymme – vare sig det är i form av lokala hårdvaruservrar eller genom Cloud Storage via en molnbaserad datacenter– som måste köpas eller leasas.

Dubblettkopior av data som har genomgått replikering försämrar därför resultatet genom att lägga på ytterligare lagringskostnader utöver de som är förknippade med det primära lagringssystemet och dess lagringsutrymme. Kort sagt, fler lagringsmedietillgångar måste ägnas åt både ny data och redan lagrad data. Någon gång i ett företags bana kan duplicerade data lätt bli en finansiell skuld.

Så, för att sammanfatta, är huvudmålet med datadeduplicering att spara pengar genom att göra det möjligt för organisationer att spendera mindre på extra lagring.

Ytterligare fördelar med deduplicering

Det finns också andra skäl utöver lagringskapacitet för företag att ta till sig lösningar för datadeduplicering – förmodligen ingen viktigare än dataskyddet och förbättringen de tillhandahåller. Organisationer förfinar och optimerar deduplicerade dataarbetsbelastningar så att de körs mer effektivt än data som är full av dubbletter av filer.

En annan viktig aspekt av dedupe är hur det hjälper till att ge en snabb och framgångsrik katastrof återställningsarbete och minimerar mängden dataförlust som ofta kan bli resultatet av en sådan händelse. Dedupe hjälper till att möjliggöra en stabil säkerhetskopieringsprocess så att en organisations säkerhetskopieringssystem är lika med uppgiften att hantera säkerhetskopieringsdata. Förutom att hjälpa till med fullständiga säkerhetskopior, hjälper dedupe också till att behålla arbetet.

Ytterligare en fördel med datadeduplicering är hur bra det fungerar tillsammans med virtuell skrivbordsinfrastruktur (VDI) distributioner, tack vare det faktum att de virtuella hårddiskarna bakom VDI:s fjärrskrivbord fungerar identiskt. Populär Desktop as a Service (DaaS) produkter inkluderar Azure Virtual Desktop från Microsoft och dess Windows VDI. Dessa produkter skapar virtuella maskiner (VM), som skapas under servervirtualiseringsprocessen. Dessa virtuella maskiner förstärker i sin tur VDI-tekniken.

Dedupliceringsmetod

Den vanligaste formen av datadeduplicering är blockdeduplicering. Denna metod fungerar genom att använda automatiserade funktioner för att identifiera dubbletter i datablock och sedan ta bort dessa dubbletter. Genom att arbeta på denna blocknivå kan bitar av unik data analyseras och specificeras som värda att validera och bevara. Sedan, när dedupliceringsmjukvaran upptäcker en upprepning av samma datablock, tas den upprepningen bort och en referens till originaldata inkluderas i dess ställe.

Det är den huvudsakliga formen av dedupe, men knappast den enda metoden. I andra användningsfall fungerar en alternativ metod för datadeduplicering på filnivå. Engångslagring jämför fullständiga kopior av data inom filservern, men inte bitar eller datablock. Liksom dess motsvarighetsmetod beror fildeduplicering på att behålla originalfilen i filsystemet och ta bort extra kopior.

Det bör noteras att dedupliceringstekniker inte fungerar på riktigt samma sätt som datakomprimeringsalgoritmer (t.ex. LZ77, LZ78), även om det är sant att båda strävar efter samma allmänna mål att minska dataredundanser. Dedupliceringstekniker uppnår detta i en större makroskala än komprimeringsalgoritmer, vars mål är mindre om att ersätta identiska filer med delade kopior och mer om att koda dataredundanser mer effektivt.

Typer av datadeduplicering

Det finns olika typer av datadeduplicering beroende på när dedupliceringsprocessen sker:

  • Inline deduplicering: Denna form av datadeduplicering sker i ögonblicket – i realtid – när data strömmar inom lagringssystemet. Inline dedupe-systemet bär mindre datatrafik eftersom det varken överför eller lagrar duplicerad data. Detta kan leda till en minskning av den totala mängden bandbredd som organisationen behöver.
  • Deduplicering efter process: Denna typ av deduplicering sker efter att data har skrivits och placerats på någon typ av lagringsenhet.

Här är det värt att förklara att båda typerna av datadeduplicering påverkas av hashberäkningarna som är inneboende i datadeduplicering. Dessa kryptografisk beräkningar är viktiga för att identifiera upprepade mönster i data. Under in-line-dedupliceringar utförs dessa beräkningar i ögonblicket, vilket kan dominera och tillfälligt överväldiga datorfunktionalitet. I efterbearbetningsdedupliceringar kan hashberäkningarna utföras när som helst efter att data har lagts till på ett sätt och vid en tidpunkt som inte överbeskattar organisationens datorresurser.

De subtila skillnaderna mellan dedupliceringstyper slutar inte där. Ett annat sätt att klassificera dedupliceringstyper är baserat på var sådana processer inträffar.

  • Källdeduplicering: Denna form av deduplicering sker nära där ny data faktiskt genereras. Systemet skannar det området och upptäcker nya kopior av filer, som sedan tas bort.
  • Mål deduplicering: En annan typ av deduplicering är som en inversion av källdeduplicering. Vid måldeduplicering deduplicerar systemet alla kopior som finns i andra områden än där originaldatan skapades.

Eftersom det finns olika typer av deduplicering som praktiseras måste framåtlutande organisationer fatta noggranna och övervägda beslut om vilken typ av deduplicering som väljs, och balansera den metoden mot det företagets särskilda behov.

I många användningsfall kan en organisations val av dedupliceringsmetod mycket väl bero på en mängd olika interna variabler, såsom följande:

  • Hur många och vilken typ av datamängder skapas
  • Organisationens primära lagringssystem
  • Vilka virtuella miljöer som används
  • Vilka appar företaget litar på

Den senaste utvecklingen av datadeduplicering

Liksom all datorutmatning är datadeduplicering redo att göra allt större användning av artificiell intelligens (AI) allt eftersom det fortsätter att utvecklas. Dedupe kommer att bli allt mer sofistikerad när den utvecklar ännu fler nyanser som hjälper den i jakten på att hitta mönster av redundans när datablock skannas.

En framväxande trend inom dedupe är förstärkningsinlärning. Detta använder ett system med belöningar och straff (som i förstärkningsträning) och tillämpar en optimal policy för att separera poster eller slå samman dem istället.

En annan trend som är värd att titta på är användningen av ensemblemetoder, där olika modeller eller algoritmer används i tandem för att säkerställa ännu större noggrannhet i dedupeprocessen.

Det pågående dilemmat

IT-världen blir allt mer fixerad vid den pågående frågan om dataspridning och vad man ska göra åt det. Många företag befinner sig i den besvärliga situationen att de samtidigt vill behålla all data som de har arbetat med att samla och vill också lägga sin överfulla nya data i vilken lagringsbehållare som helst, om så bara för att få den ur vägen.

Även om ett sådant dilemma kvarstår, kommer tyngdpunkten på datadeduplicering att fortsätta eftersom organisationer ser dedupe som det billigare alternativet till att köpa mer lagring. För i slutändan, även om vi intuitivt förstår att företag behöver data, vet vi också att data mycket ofta kräver deduplicering.

Lär dig hur IBM Storage FlashSystem kan hjälpa dig med dina lagringsbehov

var den här artikeln hjälpsam?

JaNej


Mer från Cloud




Affärskontinuitet kontra katastrofåterställning: Vilken plan är rätt för dig?

7 min läs - Affärskontinuitet och katastrofåterställningsplaner är riskhanteringsstrategier som företag förlitar sig på för att förbereda sig för oväntade incidenter. Även om termerna är nära besläktade, finns det några viktiga skillnader som är värda att överväga när du väljer vilken som är rätt för dig: Affärskontinuitetsplan (BCP): En BCP är en detaljerad plan som beskriver de steg som en organisation kommer att ta för att återgå till normala affärsfunktioner i händelsen av en katastrof. Där andra typer av planer kan fokusera på en specifik aspekt av återhämtning och avbrott...




IBM Tech Now: 29 januari 2024

<1 min läs - ​Välkommen IBM Tech Now, vår videowebbserie med de senaste och bästa nyheterna och tillkännagivandena inom teknikvärlden. Se till att du prenumererar på vår YouTube-kanal för att bli meddelad varje gång en ny IBM Tech Now-video publiceras. IBM Tech Now: Avsnitt 91 I det här avsnittet tar vi upp följande ämnen: IBM Think 2024 IBM Cloud-reservationer på IBM Cloud Virtual Servers för VPC Verdantix Green Quadrant Håll dig inkopplad Du kan kolla in IBM...




Tar nu reservationer: IBM Cloud Virtual Servers for VPC

2 min läs - Eftersom organisationer arbetar för att minska utgifterna inom företagsmolnmiljöer, står de ofta inför utmaningen att betalningsalternativen passar alla genom sina molnleverantörer. När färdplaner och prioriteringar ändras mot bakgrund av minskat kapital och skärpt ROI strävar organisationer efter att minimera utgiftsrisken under hela året och skapa mer förutsägbara budgetmiljöer. När det gäller att designa din molnberäkningsverksamhet lönar sig avancerad planering med IBM Cloud Reservations på IBM Cloud Virtual Servers for VPC. Vad är IBM...




Hur man bygger en framgångsrik katastrofåterställningsstrategi

6 min läs - Oavsett om din bransch står inför utmaningar från geopolitiska stridigheter, nedfall från en global pandemi eller ökande aggression i cybersäkerhetsområdet, är hotvektorn för moderna företag onekligen kraftfull. Katastrofåterställningsstrategier ger ramarna för teammedlemmar att få ett företag igång igen efter en oplanerad händelse. Över hela världen ökar förståeligt nog populariteten för strategier för katastrofåterställning. Förra året spenderade företag 219 miljarder USD enbart på cybersäkerhet och lösningar, en ökning med 12 % från 2022, enligt en färsk rapport från...

IBMs nyhetsbrev

Få våra nyhetsbrev och ämnesuppdateringar som ger det senaste tankeledarskapet och insikter om nya trender.

Prenumerera nu

Fler nyhetsbrev

plats_img

Senaste intelligens

plats_img