Tính năng chống trùng lặp dữ liệu hoạt động như thế nào? - Blog IBM

Tính năng chống trùng lặp dữ liệu hoạt động như thế nào? – Blog của IBM

Những năm gần đây đã chứng kiến sự bùng nổ về số lượng các đơn vị lưu trữ tự quản. Những đơn vị kho hàng lớn này đã nổi lên trên toàn quốc như một ngành đang bùng nổ vì một lý do - một người bình thường hiện có nhiều tài sản hơn mức họ biết phải làm gì.

Tình trạng cơ bản tương tự cũng đang gây khó khăn cho thế giới CNTT. Chúng ta đang ở giữa thời kỳ bùng nổ dữ liệu. Ngay cả những vật dụng hàng ngày tương đối đơn giản giờ đây cũng có thể tự tạo ra dữ liệu một cách thường xuyên nhờ vào Internet of Things (IOT) chức năng. Chưa bao giờ trong lịch sử có nhiều dữ liệu được tạo ra, thu thập và phân tích đến vậy. Và chưa bao giờ có nhiều nhà quản lý dữ liệu phải vật lộn với vấn đề làm thế nào để lưu trữ nhiều dữ liệu đến vậy.

Ban đầu, một công ty có thể không nhận ra vấn đề hoặc vấn đề có thể trở nên lớn đến mức nào, sau đó công ty đó phải tìm giải pháp lưu trữ tăng cường. Theo thời gian, công ty cũng có thể phát triển hệ thống lưu trữ đó nhiều hơn, đòi hỏi phải đầu tư nhiều hơn. Không thể tránh khỏi, công ty sẽ chán trò chơi này và sẽ tìm kiếm một lựa chọn rẻ hơn và đơn giản hơn - điều này đưa chúng ta đến sao chép dữ liệu.

Mặc dù nhiều tổ chức sử dụng các kỹ thuật chống trùng lặp dữ liệu (hoặc “khắc phục trùng lặp”) như một phần của hệ thống quản lý dữ liệu của họ, nhưng gần như không có nhiều tổ chức thực sự hiểu quy trình chống trùng lặp là gì và mục đích của nó là gì. Vì vậy, hãy làm sáng tỏ vấn đề chống trùng lặp và giải thích cách hoạt động của tính năng chống trùng lặp dữ liệu.

Việc chống trùng lặp có tác dụng gì?

Đầu tiên, hãy làm rõ thuật ngữ chính của chúng tôi. Sao chép dữ liệu là một quy trình mà các tổ chức sử dụng để hợp lý hóa việc lưu trữ dữ liệu của họ và giảm lượng dữ liệu họ đang lưu trữ bằng cách loại bỏ các bản sao dữ liệu dư thừa.

Hơn nữa, chúng ta nên chỉ ra rằng khi nói về dữ liệu dư thừa, thực ra chúng ta đang nói ở cấp độ tệp và đề cập đến sự phổ biến tràn lan của các tệp dữ liệu. Vì vậy, khi chúng ta thảo luận về các nỗ lực chống trùng lặp dữ liệu, thực tế cần có một hệ thống chống trùng lặp tệp.

Mục tiêu chính của việc chống trùng lặp là gì?

Một số người có quan niệm sai lầm về bản chất của dữ liệu, xem nó như một loại hàng hóa tồn tại đơn giản để được thu thập và thu hoạch—giống như những quả táo hái trên cây ở sân sau nhà bạn.

Thực tế là mỗi tệp dữ liệu mới đều tốn tiền. Đầu tiên, thường phải tốn tiền để có được những dữ liệu đó (thông qua việc mua danh sách dữ liệu). Hoặc nó đòi hỏi sự đầu tư tài chính đáng kể để một tổ chức có thể tự mình thu thập và thu thập dữ liệu, ngay cả khi đó là dữ liệu mà chính tổ chức đó đang sản xuất và thu thập một cách hữu cơ. Do đó, tập dữ liệu là một khoản đầu tư và giống như bất kỳ khoản đầu tư có giá trị nào, chúng phải được bảo vệ nghiêm ngặt.

Trong trường hợp này, chúng ta đang nói về không gian lưu trữ dữ liệu—ở dạng máy chủ phần cứng tại chỗ hoặc thông qua Đám mây lưu trữ thông qua nền tảng đám mây Trung tâm dữ liệu—cái đó phải được mua hoặc thuê.

Do đó, các bản sao dữ liệu trùng lặp đã trải qua quá trình sao chép sẽ làm giảm lợi nhuận bằng cách áp đặt thêm chi phí lưu trữ ngoài chi phí liên quan đến hệ thống lưu trữ chính và không gian lưu trữ của nó. Nói tóm lại, phải dành nhiều tài sản phương tiện lưu trữ hơn để chứa cả dữ liệu mới và dữ liệu đã được lưu trữ. Tại một số thời điểm trong quỹ đạo của công ty, dữ liệu trùng lặp có thể dễ dàng trở thành một khoản nợ tài chính.

Vì vậy, tóm lại, mục tiêu chính của việc chống trùng lặp dữ liệu là tiết kiệm tiền bằng cách cho phép các tổ chức chi tiêu ít hơn cho việc lưu trữ bổ sung.

Lợi ích bổ sung của việc chống trùng lặp

Ngoài ra còn có các lý do khác ngoài khả năng lưu trữ để các công ty áp dụng các giải pháp chống trùng lặp dữ liệu—có lẽ không có lý do nào quan trọng hơn khả năng bảo vệ và nâng cao dữ liệu mà chúng cung cấp. Các tổ chức tinh chỉnh và tối ưu hóa khối lượng công việc dữ liệu bị trùng lặp để chúng chạy hiệu quả hơn so với dữ liệu chứa đầy các tệp trùng lặp.

Một khía cạnh quan trọng khác của việc loại trừ sự trùng lặp là cách nó giúp hỗ trợ quá trình thực hiện nhanh chóng và thành công. thiên tai nỗ lực khôi phục và giảm thiểu lượng mất dữ liệu thường có thể xảy ra do sự kiện như vậy. Dedupe giúp kích hoạt quy trình sao lưu vững chắc để hệ thống sao lưu của tổ chức có thể đảm nhận nhiệm vụ xử lý dữ liệu sao lưu của tổ chức đó. Ngoài việc hỗ trợ sao lưu toàn bộ, tính năng loại trừ trùng lặp còn hỗ trợ các nỗ lực duy trì.

Một lợi ích khác của việc chống trùng lặp dữ liệu là nó hoạt động tốt như thế nào khi kết hợp với Cơ sở hạ tầng máy tính để bàn ảo (VDI) triển khai, nhờ vào thực tế là các đĩa cứng ảo đằng sau máy tính để bàn từ xa của VDI hoạt động giống hệt nhau. Phổ biến Máy tính để bàn dưới dạng dịch vụ (DaaS) các sản phẩm bao gồm Azure Virtual Desktop của Microsoft và Windows VDI của nó. Những sản phẩm này tạo ra máy ảo (VM), được tạo trong quá trình ảo hóa máy chủ. Đổi lại, các máy ảo này trao quyền cho công nghệ VDI.

Phương pháp chống trùng lặp

Hình thức chống trùng lặp dữ liệu được sử dụng phổ biến nhất là chống trùng lặp khối. Phương pháp này hoạt động bằng cách sử dụng các chức năng tự động để xác định sự trùng lặp trong các khối dữ liệu và sau đó loại bỏ những sự trùng lặp đó. Bằng cách làm việc ở cấp khối này, các khối dữ liệu duy nhất có thể được phân tích và chỉ định là có giá trị xác thực và bảo quản. Sau đó, khi phần mềm chống trùng lặp phát hiện sự lặp lại của cùng một khối dữ liệu, sự lặp lại đó sẽ bị loại bỏ và tham chiếu đến dữ liệu gốc sẽ được đưa vào vị trí của nó.

Đó là hình thức loại trừ chính, nhưng hầu như không phải là phương pháp duy nhất. Trong các trường hợp sử dụng khác, một phương pháp chống trùng lặp dữ liệu thay thế sẽ hoạt động ở cấp độ tệp. Bộ lưu trữ phiên bản đơn so sánh toàn bộ bản sao dữ liệu trong máy chủ tệp, nhưng không so sánh các khối hoặc khối dữ liệu. Giống như phương pháp đối tác của nó, việc loại bỏ trùng lặp tệp phụ thuộc vào việc giữ tệp gốc trong hệ thống tệp và xóa các bản sao bổ sung.

Cần lưu ý rằng các kỹ thuật chống trùng lặp không hoạt động theo cách giống như các thuật toán nén dữ liệu (ví dụ: LZ77, LZ78), mặc dù đúng là cả hai đều theo đuổi cùng một mục tiêu chung là giảm sự dư thừa dữ liệu. Các kỹ thuật chống trùng lặp đạt được điều này ở quy mô vĩ mô lớn hơn so với các thuật toán nén, mục tiêu của chúng không phải là thay thế các tệp giống hệt nhau bằng các bản sao được chia sẻ mà là mã hóa các phần dư thừa dữ liệu hiệu quả hơn.

Các loại trùng lặp dữ liệu

Có nhiều kiểu chống trùng lặp dữ liệu khác nhau tùy thuộc vào khi nào quá trình trùng lặp xảy ra:

Chống trùng lặp nội tuyến: Hình thức loại bỏ trùng lặp dữ liệu này xảy ra ngay lập tức—trong thời gian thực—khi dữ liệu chảy trong hệ thống lưu trữ. Hệ thống loại bỏ trùng lặp nội tuyến mang ít lưu lượng dữ liệu hơn vì nó không truyền cũng như không lưu trữ dữ liệu trùng lặp. Điều này có thể dẫn đến việc giảm tổng lượng băng thông mà tổ chức đó cần.
Chống trùng lặp sau quá trình: Kiểu chống trùng lặp này diễn ra sau khi dữ liệu được ghi và đặt trên một số loại thiết bị lưu trữ.

Ở đây cần giải thích rằng cả hai loại loại bỏ trùng lặp dữ liệu đều bị ảnh hưởng bởi các phép tính băm vốn có của việc loại bỏ trùng lặp dữ liệu. Những cái này mật mã các phép tính là không thể thiếu để xác định các mẫu lặp lại trong dữ liệu. Trong quá trình loại bỏ trùng lặp nội tuyến, những tính toán đó được thực hiện ngay lập tức, điều này có thể chiếm ưu thế và tạm thời lấn át chức năng của máy tính. Trong quá trình loại bỏ trùng lặp sau xử lý, các phép tính băm có thể được thực hiện bất kỳ lúc nào sau khi dữ liệu được thêm vào theo cách và tại thời điểm không tiêu tốn quá nhiều tài nguyên máy tính của tổ chức.

Sự khác biệt tinh tế giữa các loại trùng lặp không kết thúc ở đó. Một cách khác để phân loại các loại trùng lặp là dựa trên Ở đâu những quá trình như vậy xảy ra.

Chống trùng lặp nguồn: Hình thức loại bỏ trùng lặp này diễn ra gần nơi dữ liệu mới thực sự được tạo ra. Hệ thống quét khu vực đó và phát hiện các bản sao mới của tệp, sau đó sẽ bị xóa.
Chống trùng lặp mục tiêu: Một kiểu loại bỏ trùng lặp khác giống như sự đảo ngược của loại bỏ trùng lặp nguồn. Trong quá trình loại bỏ trùng lặp mục tiêu, hệ thống sẽ sao chép bất kỳ bản sao nào được tìm thấy ở các khu vực không phải là nơi dữ liệu gốc được tạo.

Bởi vì có nhiều loại loại bỏ trùng lặp khác nhau được thực hiện nên các tổ chức tiên phong phải đưa ra các quyết định cẩn thận và cân nhắc về loại loại bỏ trùng lặp đã chọn, cân bằng phương pháp đó với nhu cầu cụ thể của công ty đó.

Trong nhiều trường hợp sử dụng, phương pháp chống trùng lặp được tổ chức lựa chọn có thể phụ thuộc vào nhiều biến nội bộ khác nhau, chẳng hạn như sau:

Có bao nhiêu và loại tập dữ liệu nào đang được tạo
Hệ thống lưu trữ chính của tổ chức
Những môi trường ảo nào đang được sử dụng
Những ứng dụng nào công ty dựa vào

Sự phát triển chống trùng lặp dữ liệu gần đây

Giống như tất cả các kết quả đầu ra của máy tính, việc sao chép dữ liệu đã sẵn sàng để sử dụng ngày càng nhiều trí tuệ nhân tạo (AI) khi nó tiếp tục phát triển. Dedupe sẽ ngày càng trở nên phức tạp hơn khi nó phát triển nhiều sắc thái hơn nữa để hỗ trợ nó trong việc theo đuổi việc tìm kiếm các kiểu dư thừa khi các khối dữ liệu được quét.

Một xu hướng mới nổi trong việc loại trừ là học tăng cường. Điều này sử dụng một hệ thống khen thưởng và trừng phạt (như trong đào tạo tăng cường) và áp dụng chính sách tối ưu để tách các hồ sơ hoặc hợp nhất chúng.

Một xu hướng khác đáng theo dõi là việc sử dụng các phương pháp tập hợp, trong đó các mô hình hoặc thuật toán khác nhau được sử dụng song song để đảm bảo độ chính xác cao hơn nữa trong quy trình loại bỏ trùng lặp.

Tình thế tiến thoái lưỡng nan đang diễn ra

Thế giới CNTT ngày càng tập trung vào vấn đề phổ biến dữ liệu đang diễn ra và những việc cần làm với vấn đề đó. Nhiều công ty đang rơi vào tình thế khó xử khi vừa muốn giữ lại tất cả dữ liệu mà họ đã nỗ lực tích lũy vừa muốn đưa dữ liệu mới tràn ngập của họ vào bất kỳ vùng lưu trữ nào có thể, nếu chỉ để loại bỏ nó.

Trong khi vấn đề nan giải như vậy vẫn tồn tại, việc nhấn mạnh vào các nỗ lực chống trùng lặp dữ liệu sẽ tiếp tục diễn ra khi các tổ chức coi việc loại bỏ trùng lặp là giải pháp thay thế rẻ hơn cho việc mua thêm dung lượng lưu trữ. Bởi vì cuối cùng, mặc dù chúng tôi hiểu bằng trực giác rằng doanh nghiệp cần dữ liệu, nhưng chúng tôi cũng biết rằng dữ liệu rất thường xuyên yêu cầu chống trùng lặp.

Tìm hiểu cách IBM Storage FlashSystem có thể giúp bạn đáp ứng nhu cầu lưu trữ của bạn

Bài viết này hữu ích không?

CóKhông

Thêm từ đám mây

29 Tháng một, 2024

Kinh doanh liên tục và khắc phục thảm họa: Kế hoạch nào phù hợp với bạn?

7 phút đọc – Kế hoạch kinh doanh liên tục và khắc phục thảm họa là các chiến lược quản lý rủi ro mà doanh nghiệp dựa vào để chuẩn bị cho những sự cố bất ngờ. Mặc dù các điều khoản có liên quan chặt chẽ với nhau nhưng có một số điểm khác biệt chính đáng để cân nhắc khi lựa chọn điều khoản phù hợp với bạn: Kế hoạch kinh doanh liên tục (BCP): BCP là một kế hoạch chi tiết nêu rõ các bước mà tổ chức sẽ thực hiện để quay trở lại các chức năng kinh doanh bình thường trong sự kiện xảy ra thảm họa. Trường hợp các loại kế hoạch khác có thể tập trung vào một khía cạnh cụ thể của việc phục hồi và gián đoạn…

29 Tháng một, 2024

IBM Tech Now: ngày 29 tháng 2024 năm XNUMX

<1 phút đọc – Chào mừng IBM Tech Now, loạt web video của chúng tôi giới thiệu những tin tức và thông báo mới nhất và hay nhất trong thế giới công nghệ. Đảm bảo bạn đăng ký kênh YouTube của chúng tôi để được thông báo mỗi khi video IBM Tech Now mới được xuất bản. IBM Tech Now: Tập 91 Trong tập này, chúng tôi đề cập đến các chủ đề sau: IBM Think 2024 Đặt trước đám mây của IBM trên Máy chủ ảo đám mây của IBM dành cho Góc phần tư xanh của VPC Verdantix Luôn cắm vào Bạn có thể kiểm tra IBM…

Người đàn ông đeo kính ngồi trên ghế, bắt chéo chân và một tay đặt trên bàn phím của máy tính xách tay đang mở

22 Tháng một, 2024

Hiện đang nhận đặt chỗ: Máy chủ ảo đám mây IBM cho VPC

2 phút đọc – Khi các tổ chức nỗ lực giảm chi tiêu trong môi trường đám mây doanh nghiệp, họ thường phải đối mặt với thách thức về các tùy chọn thanh toán phù hợp với tất cả các nhà cung cấp đám mây của mình. Khi lộ trình và ưu tiên thay đổi trong bối cảnh giảm vốn và thắt chặt ROI, các tổ chức đặt mục tiêu giảm thiểu rủi ro chi tiêu trong suốt cả năm và tạo ra môi trường lập ngân sách dễ dự đoán hơn. Khi nói đến việc thiết kế các hoạt động điện toán đám mây của bạn, việc lập kế hoạch nâng cao sẽ mang lại kết quả tốt với Đặt trước đám mây của IBM trên Máy chủ ảo đám mây của IBM dành cho VPC. IBM là gì…

19 Tháng một, 2024

Làm thế nào để xây dựng chiến lược khắc phục thảm họa thành công

6 phút đọc – Cho dù ngành của bạn phải đối mặt với những thách thức từ xung đột địa chính trị, hậu quả từ đại dịch toàn cầu hay sự gây hấn ngày càng gia tăng trong không gian an ninh mạng thì không thể phủ nhận mối đe dọa đối với các doanh nghiệp hiện đại là rất mạnh mẽ. Chiến lược khắc phục thảm họa cung cấp khuôn khổ cho các thành viên trong nhóm giúp doanh nghiệp phục hồi và hoạt động sau một sự kiện ngoài kế hoạch. Trên toàn thế giới, mức độ phổ biến của các chiến lược khắc phục thảm họa đang gia tăng một cách dễ hiểu. Năm ngoái, các công ty đã chi 219 tỷ USD cho riêng các giải pháp và an ninh mạng, tăng 12% so với năm 2022, theo một báo cáo gần đây của…

Bản tin IBM

Nhận các bản tin và cập nhật chủ đề của chúng tôi nhằm cung cấp thông tin chi tiết và lãnh đạo tư tưởng mới nhất về các xu hướng mới nổi.

Theo dõi ngay

Các bản tin khác

Phân phối nội dung và PR được hỗ trợ bởi SEO. Được khuếch đại ngay hôm nay.
PlatoData.Network Vertical Generative Ai. Trao quyền cho chính mình. Truy cập Tại đây.
PlatoAiStream. Thông minh Web3. Kiến thức khuếch đại. Truy cập Tại đây.
Trung tâmESG. Than đá, công nghệ sạch, Năng lượng, Môi trường Hệ mặt trời, Quản lý chất thải. Truy cập Tại đây.
PlatoSức khỏe. Tình báo thử nghiệm lâm sàng và công nghệ sinh học. Truy cập Tại đây.
nguồn: https://www.ibm.com/blog/how-does-data-deduplication-work/

Trí thông minh dữ liệu tạo

Tính năng chống trùng lặp dữ liệu hoạt động như thế nào? – Blog của IBM

Việc chống trùng lặp có tác dụng gì?

Mục tiêu chính của việc chống trùng lặp là gì?

Lợi ích bổ sung của việc chống trùng lặp

Phương pháp chống trùng lặp

Các loại trùng lặp dữ liệu

Sự phát triển chống trùng lặp dữ liệu gần đây

Tình thế tiến thoái lưỡng nan đang diễn ra

Thêm từ đám mây

Kinh doanh liên tục và khắc phục thảm họa: Kế hoạch nào phù hợp với bạn?

IBM Tech Now: ngày 29 tháng 2024 năm XNUMX

Hiện đang nhận đặt chỗ: Máy chủ ảo đám mây IBM cho VPC

Làm thế nào để xây dựng chiến lược khắc phục thảm họa thành công

Bản tin IBM

Ba chìa khóa để người dân trên đảo giành chiến thắng trong ván thứ năm

Ba chìa khóa để người dân trên đảo giành chiến thắng trong ván thứ năm

Tin tức mới nhất

Ba chìa khóa để người dân trên đảo giành chiến thắng trong ván thứ năm

Lakers có được chiến thắng đáng mơ ước trước Denver, hiện đang dẫn trước 3-1 trong loạt trận

Những người đam mê Dogecoin và Pepecoin tập hợp đằng sau Token AI mới được phát hành bởi nền tảng trao đổi Wahoo – CryptoInfoNet

Bài học từ phiên tòa FTX: Việc quản lý CEX có thể không đủ để ngăn chặn những kẻ xấu | Ý kiến – CryptoInfoNet

Giải thích về kỹ thuật đi sâu vào “Bánh răng” của Ioniq 5 N và các tính năng hiệu suất khác – CleanTechnica

Theo nhà phân tích Benjamin Cowen, vàng có thể vừa báo hiệu sự kết thúc của cuộc biểu tình Bitcoin (BTC) – Đây là ý của ông – The Daily Hodl