제퍼넷 로고

데이터 중복 제거는 어떻게 작동하나요? – IBM 블로그

시간


데이터 중복 제거는 어떻게 작동하나요? – IBM 블로그



공장의 오버헤드 샷

최근 몇 년 동안 셀프 스토리지 장치의 확산이 폭발적으로 증가했습니다. 이러한 대규모 창고 시설은 한 가지 이유 때문에 전국적으로 호황을 누리는 산업으로 탄생했습니다. 이제 일반 사람은 자신이 무엇을 해야 할지 아는 것보다 더 많은 소유물을 보유하고 있습니다.

동일한 기본 상황이 IT 세계에도 영향을 미치고 있습니다. 우리는 데이터의 폭발적인 증가 속에 있습니다. 비교적 단순하고 일상적인 객체라도 이제 일상적으로 자체적으로 데이터를 생성합니다. 사물의 인터넷 IOT () 기능. 역사상 이렇게 많은 데이터가 생성, 수집, 분석된 적은 없었습니다. 그리고 더 많은 데이터 관리자가 그렇게 많은 데이터를 저장하는 방법에 대한 문제로 씨름한 적은 이전에 없었습니다.

회사는 처음에는 문제가 얼마나 커질 수 있는지 인식하지 못할 수 있으며, 이후 해당 회사는 더 많은 스토리지 솔루션을 찾아야 합니다. 시간이 지나면 회사는 스토리지 시스템의 규모를 초과하여 더 많은 투자가 필요할 수도 있습니다. 필연적으로 회사는 이 게임에 싫증을 느끼고 더 저렴하고 간단한 옵션을 찾을 것입니다. 데이터 중복 제거.

많은 조직이 데이터 관리 시스템의 일부로 데이터 중복 제거 기술(또는 "중복 제거")을 사용하지만 중복 제거 프로세스가 무엇인지, 그 목적이 무엇인지 진정으로 이해하는 조직은 많지 않습니다. 이제 중복 제거에 대한 이해를 높이고 데이터 중복 제거가 어떻게 작동하는지 설명하겠습니다.

중복 제거는 무엇을 합니까?

먼저 주요 용어를 명확히하겠습니다. 데이터 중복 제거는 조직에서 중복된 데이터 복사본을 제거하여 데이터 보유를 간소화하고 보관하는 데이터의 양을 줄이기 위해 사용하는 프로세스입니다.

또한 중복 데이터에 대해 말할 때 실제로는 파일 수준에서 말하고 데이터 파일의 만연한 확산을 언급한다는 점을 지적해야 합니다. 따라서 데이터 중복 제거 노력에 대해 논의할 때 실제로 필요한 것은 파일 중복 제거 시스템입니다.

중복 제거의 주요 목표는 무엇입니까?

일부 사람들은 데이터의 본질에 대해 잘못된 개념을 가지고 있으며, 데이터를 뒷마당 나무에서 따는 사과처럼 단순히 수집하고 수확하기 위해 존재하는 상품으로 간주합니다.

현실은 새로운 데이터 파일 하나하나에 비용이 든다는 것입니다. 우선, 그러한 데이터를 얻으려면(데이터 목록 구매를 통해) 일반적으로 비용이 듭니다. 또는 조직 자체가 유기적으로 생산하고 수집하는 데이터라 할지라도 조직이 자체적으로 데이터를 수집하고 수집하려면 상당한 재정적 투자가 필요합니다. 따라서 데이터 세트는 투자이며 다른 귀중한 투자와 마찬가지로 엄격하게 보호되어야 합니다.

이 예에서는 온프레미스 하드웨어 서버 형태 또는 이를 통한 데이터 저장 공간에 대해 이야기하고 있습니다. 클라우드 스토리지 클라우드 기반을 통해 데이터 센터—구매하거나 임대해야 합니다.

따라서 복제된 데이터의 중복 복사본은 기본 스토리지 시스템 및 해당 스토리지 공간과 관련된 비용 외에 추가 스토리지 비용을 부과하여 수익을 떨어뜨립니다. 즉, 새로운 데이터와 이미 저장된 데이터를 모두 수용하려면 더 많은 스토리지 미디어 자산을 할당해야 합니다. 회사 운영의 어느 시점에서 중복 데이터는 쉽게 재정적 책임이 될 수 있습니다.

요약하자면, 데이터 중복 제거의 주요 목표는 조직이 추가 스토리지에 지출하는 비용을 줄여 비용을 절약하는 것입니다.

중복 제거의 추가 이점

기업이 데이터 중복 제거 솔루션을 채택하는 데에는 스토리지 용량 외에도 다른 이유가 있습니다. 아마도 솔루션이 제공하는 데이터 보호 및 향상보다 더 중요한 것은 없을 것입니다. 조직에서는 중복 파일이 가득한 데이터보다 더 효율적으로 실행되도록 중복 제거된 데이터 워크로드를 개선하고 최적화합니다.

중복 제거의 또 다른 중요한 측면은 신속하고 성공적인 프로세스를 지원하는 방법입니다. 재앙 복구 노력을 최소화하고 이러한 이벤트로 인해 발생할 수 있는 데이터 손실을 최소화합니다. Dedupe는 견고한 백업 프로세스를 지원하므로 조직의 백업 시스템이 백업 데이터를 처리하는 작업과 동일해집니다. 중복 제거는 전체 백업을 돕는 것 외에도 보존 노력에도 도움이 됩니다.

데이터 중복 제거의 또 다른 이점은 VDI(가상 데스크톱 인프라) VDI 원격 데스크톱 뒤의 가상 하드 디스크가 동일하게 작동한다는 사실 덕분에 배포가 가능해졌습니다. 인기 있는 DaaS(Desktop as a Service) 제품에는 Microsoft의 Azure Virtual Desktop과 Windows VDI가 포함됩니다. 이 제품들은 가상 머신(VM)는 서버 가상화 프로세스 중에 생성됩니다. 결과적으로 이러한 가상 머신은 VDI 기술을 강화합니다.

중복 제거 방법론

가장 일반적으로 사용되는 데이터 중복 제거 형태는 블록 중복 제거입니다. 이 방법은 자동화된 기능을 사용하여 데이터 블록의 중복을 식별한 다음 해당 중복을 제거하는 방식으로 작동합니다. 이 블록 수준에서 작업하면 고유한 데이터 덩어리를 분석하고 검증 및 보존할 가치가 있는 것으로 지정할 수 있습니다. 그런 다음 중복 제거 소프트웨어가 동일한 데이터 블록의 반복을 감지하면 해당 반복이 제거되고 원본 데이터에 대한 참조가 그 자리에 포함됩니다.

이것이 중복 제거의 주요 형태이지만 유일한 방법은 아닙니다. 다른 사용 사례에서는 데이터 중복 제거의 대체 방법이 파일 수준에서 작동합니다. 단일 인스턴스 스토리지는 파일 서버 내 데이터의 전체 복사본을 비교하지만 데이터 청크나 블록은 비교하지 않습니다. 대응 방법과 마찬가지로 파일 중복 제거는 원본 파일을 파일 시스템 내에 유지하고 추가 복사본을 제거하는 방식에 따라 달라집니다.

중복 제거 기술은 데이터 압축 알고리즘(예: LZ77, LZ78)과 동일한 방식으로 작동하지 않는다는 점에 유의해야 합니다. 하지만 둘 다 데이터 중복을 줄이는 동일한 일반적인 목표를 추구하는 것은 사실입니다. 중복 제거 기술은 동일한 파일을 공유 복사본으로 바꾸는 것이 아니라 데이터 중복을 보다 효율적으로 인코딩하는 것이 목표인 압축 알고리즘보다 더 큰 거시적 규모로 이를 달성합니다.

데이터 중복 제거 유형

데이터 중복 제거에는 다음 유형이 있습니다. 언제 중복 제거 프로세스가 발생합니다.

  • 인라인 중복 제거: 이러한 형태의 데이터 중복 제거는 데이터가 스토리지 시스템 내에서 흐르는 순간 실시간으로 발생합니다. 인라인 중복 제거 시스템은 중복된 데이터를 전송하거나 저장하지 않기 때문에 데이터 트래픽이 적습니다. 이로 인해 해당 조직에 필요한 총 대역폭 양이 줄어들 수 있습니다.
  • 사후 중복 제거: 이러한 유형의 중복 제거는 데이터가 특정 유형의 저장 장치에 기록되고 배치된 후에 발생합니다.

여기서는 두 가지 유형의 데이터 중복 제거 모두 데이터 중복 제거에 내재된 해시 계산의 영향을 받는다는 점을 설명할 가치가 있습니다. 이것들 cryptographic 계산은 데이터에서 반복되는 패턴을 식별하는 데 필수적입니다. 인라인 중복 제거 중에는 이러한 계산이 순간적으로 수행되므로 컴퓨터 기능을 지배하고 일시적으로 압도할 수 있습니다. 사후 처리 중복 제거에서는 조직의 컴퓨터 리소스에 과도한 부담을 주지 않는 방식으로 데이터가 추가된 후 언제든지 해시 계산을 수행할 수 있습니다.

중복 제거 유형 간의 미묘한 차이는 여기서 끝나지 않습니다. 중복 제거 유형을 분류하는 또 다른 방법은 다음을 기반으로 합니다. 어디에 그러한 과정이 발생합니다.

  • 소스 중복 제거: 이러한 형태의 중복 제거는 새 데이터가 실제로 생성되는 위치 근처에서 발생합니다. 시스템은 해당 영역을 검사하고 파일의 새 복사본을 탐지한 다음 제거합니다.
  • 대상 중복 제거: 또 다른 유형의 중복 제거는 소스 중복 제거의 반전과 같습니다. 대상 중복 제거에서는 시스템이 원본 데이터가 생성된 위치 이외의 영역에서 발견된 모든 복사본을 중복 제거합니다.

다양한 유형의 중복 제거가 실행되기 때문에 미래 지향적인 조직은 선택한 중복 제거 유형에 관해 신중하고 신중한 결정을 내려 해당 회사의 특정 요구 사항과 해당 방법의 균형을 맞춰야 합니다.

많은 사용 사례에서 조직이 선택한 중복 제거 방법은 다음과 같은 다양한 내부 변수에 따라 달라질 수 있습니다.

  • 생성되는 데이터 세트의 수와 유형
  • 조직의 기본 스토리지 시스템
  • 사용 중인 가상 환경
  • 회사가 의존하는 앱

최근 데이터 중복 제거 개발

모든 컴퓨터 출력과 마찬가지로 데이터 중복 제거도 점점 더 많이 활용될 준비가 되어 있습니다. 인공 지능 (AI) 계속해서 진화하고 있기 때문입니다. Dedupe는 데이터 블록을 스캔할 때 중복성 패턴을 찾는 데 도움이 되는 더 많은 미묘한 차이를 개발함에 따라 점점 더 정교해질 것입니다.

중복 제거의 새로운 추세 중 하나는 강화 학습입니다. 이는 강화 훈련과 같은 보상 및 처벌 시스템을 사용하고 대신 기록을 분리하거나 병합하기 위한 최적의 정책을 적용합니다.

주목할만한 또 다른 추세는 앙상블 방법을 사용하는 것입니다. 이 방법에서는 중복 제거 프로세스 내에서 더 높은 정확성을 보장하기 위해 다양한 모델이나 알고리즘을 함께 사용합니다.

계속되는 딜레마

IT 세계는 지속적인 데이터 확산 문제와 이에 대해 무엇을 해야 하는지에 점점 더 집착하고 있습니다. 많은 기업은 그동안 축적한 모든 데이터를 유지하려는 동시에 넘쳐나는 새 데이터를 방해가 되지 않도록 가능한 모든 스토리지 컨테이너에 보관하고 싶어하는 난처한 입장에 처해 있습니다.

이러한 딜레마가 지속되는 동안 조직에서는 중복 제거를 더 많은 스토리지를 구입하는 것보다 저렴한 대안으로 여기기 때문에 데이터 중복 제거 노력에 대한 강조는 계속될 것입니다. 궁극적으로 우리는 비즈니스에 데이터가 필요하다는 것을 직관적으로 이해하지만 데이터에 중복 제거가 필요한 경우가 많다는 것도 알고 있습니다.

IBM Storage FlashSystem이 스토리지 요구사항에 어떻게 도움을 줄 수 있는지 알아보세요.

이 글이 도움 되었나요?

가능아니


클라우드에서 더 보기




비즈니스 연속성 및 재해 복구: 어떤 계획이 귀하에게 적합합니까?

7 분 읽기 - 비즈니스 연속성 및 재해 복구 계획은 기업이 예상치 못한 사고에 대비하기 위해 의존하는 위험 관리 전략입니다. 두 용어는 밀접하게 관련되어 있지만 귀하에게 적합한 용어를 선택할 때 고려해야 할 몇 가지 주요 차이점이 있습니다. 비즈니스 연속성 계획(BCP): BCP는 조직이 정상적인 비즈니스 기능으로 복귀하기 위해 취할 단계를 간략하게 설명하는 세부 계획입니다. 재해 발생. 다른 유형의 계획은 복구 및 중단의 특정 측면에 중점을 둘 수 있습니다.




IBM Tech Now: 29년 2024월 XNUMX일

<1 분 읽기 - 기술 세계의 가장 뛰어난 최신 뉴스와 발표를 소개하는 비디오 웹 시리즈인 IBM Tech Now에 오신 것을 환영합니다. 새로운 IBM Tech Now 비디오가 게시될 때마다 알림을 받으려면 YouTube 채널을 구독하세요. IBM Tech Now: 에피소드 91 이 에피소드에서는 다음 주제를 다룹니다. IBM Think 2024 VPC용 IBM Cloud 가상 서버의 IBM Cloud 예약 Verdantix의 Green Quadrant 연결 유지 IBM을 확인할 수 있습니다…




현재 예약 중: IBM Cloud Virtual Servers for VPC

2 분 읽기 - 조직이 엔터프라이즈 클라우드 환경 내에서 지출을 줄이기 위해 노력할 때 클라우드 공급자를 통해 모든 결제 옵션에 일률적으로 적용되는 문제에 직면하는 경우가 많습니다. 자본 감소와 ROI 강화로 인해 로드맵과 우선순위가 바뀌면서 조직은 일년 내내 지출 위험을 최소화하고 보다 예측 가능한 예산 책정 환경을 만드는 것을 목표로 합니다. 클라우드 컴퓨팅 운영을 설계할 때 고급 계획은 IBM Cloud Virtual Servers for VPC의 IBM Cloud Reservations를 통해 성과를 거두게 됩니다. IBM은 무엇인가…




성공적인 재해 복구 전략을 구축하는 방법

6 분 읽기 - 귀하의 산업이 지정학적 갈등, 글로벌 팬데믹으로 인한 여파, 사이버 보안 분야의 공격성 증가로 인한 어려움에 직면하든 현대 기업의 위협 벡터는 부인할 수 없을 정도로 강력합니다. 재해 복구 전략은 팀 구성원이 계획되지 않은 이벤트가 발생한 후 비즈니스를 백업하고 실행할 수 있는 프레임워크를 제공합니다. 전 세계적으로 재해 복구 전략의 인기가 높아지고 있는 것은 당연합니다. 최근 보고서에 따르면 지난해 기업들은 사이버 보안과 솔루션에만 219억 달러를 지출했는데, 이는 12년보다 2022% 증가한 수치입니다.

IBM 뉴스레터

새로운 트렌드에 대한 최신 사고 리더십과 통찰력을 제공하는 뉴스레터와 주제 업데이트를 받아보세요.

지금 가입

더 많은 뉴스 레터

spot_img

최신 인텔리전스

spot_img