Logo Zephyrnet

Tính toàn vẹn dữ liệu so với chất lượng dữ liệu – DATAVERSITY

Ngày:

tính toàn vẹn dữ liệu so với chất lượng dữ liệutính toàn vẹn dữ liệu so với chất lượng dữ liệu

Chất lượng dữ liệu và tính toàn vẹn của dữ liệu là cả hai khía cạnh quan trọng của phân tích dữ liệu. Với sự phát triển nhanh chóng của phân tích dữ liệu, dữ liệu có thể được coi là một trong những tài sản quan trọng nhất mà doanh nghiệp sở hữu. Do đó, nhiều tổ chức thu thập lượng dữ liệu khổng lồ cho mục đích nghiên cứu và tiếp thị. 

Tuy nhiên, giá trị của dữ liệu này phụ thuộc vào khả năng sử dụng và độ chính xác của nó. Do dữ liệu đến từ nhiều nguồn khác nhau, thường có định dạng khác nhau và có thể được lưu trữ nhiều lần – với một số bản sao có lỗi – nên việc làm việc với số lượng lớn dữ liệu có thể trở nên khó khăn. 

Để phát triển, một doanh nghiệp hiện đại dựa trên dữ liệu cần chú trọng vào cả tính toàn vẹn của dữ liệu và Chất lượng dữ liệu. 

Các từ “chính trực” và “chất lượng” đều cho thấy ảnh hưởng tích cực và cả hai từ đều hơi khó định nghĩa. Do đó, nhiều người sử dụng thay thế cho thuật ngữ “tính toàn vẹn của dữ liệu” và “Chất lượng dữ liệu”, với sự hiểu biết rằng cả hai thuật ngữ đều đại diện cho dữ liệu được cải thiện. (Một lượng lớn đáng ngạc nhiên các bài báo có tiêu đề đề xuất chủ đề là tính toàn vẹn của dữ liệu, nhưng sau đó chuyển sang mô tả Chất lượng dữ liệu.) 

Đó là sự khác biệt giữa hai định nghĩa quan trọng. Biết được sự khác biệt giữa tính toàn vẹn của dữ liệu so với Chất lượng dữ liệu có thể giúp truyền đạt các nhu cầu và mối quan tâm cụ thể của bạn cho người khác.

Dữ liệu phải có tính toàn vẹn và có chất lượng cao. 

Những gì là Toàn vẹn dữ liệu?

Từ “liêm chính” phát triển từ tiếng Latin số nguyên, từng có nghĩa là toàn bộ, hoàn chỉnh hoặc không phân chia. (Hiện tại, từ “số nguyên” có nghĩa là một số nguyên.) Vào những năm 1540, khi áp dụng cho mọi người, nó có nghĩa là một người hoàn toàn trung thực và chân thành (một người không phân chia). Thuật ngữ hiện đại “tính toàn vẹn của dữ liệu” có nghĩa là dữ liệu vừa toàn vẹn vừa nhất quán (một tài sản dữ liệu không phân chia).

Vào cuối những năm 1980, một số công ty thuốc generic đã bị bắt ngụy tạo dữ liệu và hối lộ các quan chức Cục Quản lý Thực phẩm và Dược phẩm để được chấp thuận cho các loại thuốc gốc rẻ hơn của họ. Vụ bê bối này đã khiến FDA chuyển hướng kiểm tra trước khi phê duyệt để tập trung vào đánh giá dữ liệu phòng thí nghiệm thô hơn là kết luận của nhà sản xuất. Dữ liệu thô này không thể thay đổi hoặc chỉnh sửa và cần phải trung thực và chính xác. 

Các vấn đề về thông tin sai lệch từ ngành công nghiệp dược phẩm vẫn tiếp diễn, và vào năm 2005, FDA trích dẫn Phòng thí nghiệm Able vì đã gửi dữ liệu sai và không xem xét dữ liệu, bao gồm cả các dấu vết kiểm tra dữ liệu. Trong năm 2006 và 2008, FDA cũng đã ban hành thư cảnh báo cho Ranb Wax về những thiếu sót “toàn vẹn dữ liệu”. FDA đã mô tả sự thiếu toàn vẹn của dữ liệu khi chỉ ra dữ liệu bị thiếu hoặc bị thay đổi có chủ ý.  

Năm 2008, một cuốn sách có tựa đề “Hệ điều hành: Ba mảnh dễ dàng,” đã được xuất bản có chứa một chương có tiêu đề Tính toàn vẹn và bảo vệ dữ liệu. Trong chương này, Andrea C. Arpaci-Dusseau và Remzi Arpaci-Dusseau, hai giáo sư khoa học máy tính, đã viết về các chế độ “lỗi đĩa” và “phát hiện tham nhũng”. Trọng tâm chính của họ là xử lý lỗi hệ thống lưu trữ dữ liệu hoặc “dữ liệu bị hỏng”, với trọng tâm là duy trì tính nhất quán và chính xác của dữ liệu.

Tính toàn vẹn của dữ liệu, trước khi bị nhầm lẫn với Chất lượng dữ liệu, là về việc giữ toàn bộ dữ liệu (nguyên vẹn và đầy đủ chức năng) cho đến khi không còn cần thiết nữa. Nó hỗ trợ các quy trình và thực tiễn xác định cách dữ liệu được nhập, truyền và lưu trữ mà không bị thay đổi hoặc hỏng. Tránh “dữ liệu bị hỏng” – dữ liệu có các thành phần bị mất, bị bóp méo hoặc bị thay đổi có chủ ý – là mục tiêu chính của tính toàn vẹn dữ liệu. 

Hiện nay, toàn vẹn dữ liệu Có thể định nghĩa được là sự duy trì và độ tin cậy về độ chính xác và nhất quán của dữ liệu trong suốt vòng đời của nó, với ưu tiên là dữ liệu trung thực hoặc không bị sửa đổi. 

Tham nhũng dữ liệu diễn ra khi dữ liệu bị thay đổi một cách cố ý hoặc vô tình. Những thay đổi ngẫu nhiên có thể khiến dữ liệu không thể đọc được, không thể truy cập hoặc không sử dụng được cho các nhà nghiên cứu hoặc thậm chí các ứng dụng dữ liệu khác. Trong nhiều trường hợp, phần mềm máy tính, ứng dụng dành cho thiết bị di động hoặc ứng dụng web không thể đọc được dữ liệu bị hỏng nữa. Tham nhũng dữ liệu cũng có thể dẫn đến làm chậm hệ thống hoặc đơn giản là đóng băng hệ thống máy tính. 

Cố ý làm hỏng dữ liệu có thể là nỗ lực cung cấp thông tin sai lệch, với mục đích lừa dối hoặc có thể là kết quả của tin tặc hoặc vi rút. 

Dữ liệu bị hỏng như thế nào

Có một số yếu tố có thể ảnh hưởng đến tính toàn vẹn của dữ liệu, bao gồm cả hành vi cố ý và/hoặc ác ý. Các nguồn tham nhũng dữ liệu phổ biến nhất được liệt kê dưới đây:

  • Lỗi của con người: Dữ liệu có thể bị hỏng do lỗi của con người theo nhiều cách khác nhau. Đôi khi, người dùng có thể vô tình xóa dữ liệu, ghi đè hoặc thay thế tệp hoặc xử lý sai quy trình thu thập hoặc di chuyển dữ liệu.
  • Phần cứng bị xâm nhập: Phần cứng bị lỗi hoặc hư hỏng có thể làm hỏng dữ liệu. Sự cố phần cứng có thể làm hỏng dữ liệu khi dữ liệu được thu thập, xử lý hoặc lưu trữ, khiến dữ liệu không sử dụng được. Việc đảm bảo các tài nguyên phần cứng phù hợp, không bị hư hại đang được sử dụng sẽ loại bỏ vấn đề này. 
  • Hệ thống không tương thích: Dữ liệu đến từ một hệ thống máy tính khác có thể có định dạng không tương thích mà hệ thống nhận không thể đọc được. Ví dụ: dữ liệu được gửi từ cơ sở dữ liệu NoSQL có thể không tương thích với cơ sở dữ liệu MySQL. 
  • Virus và lỗi: Một dạng hành vi độc hại, vi-rút và lỗi có thể gây ra những điều tồi tệ. Họ có thể thay đổi, xóa và thao tác dữ liệu.
  • Chuyển lỗi: Lỗi dữ liệu có thể được chuyển hoặc diễn ra trong quá trình chuyển. Đôi khi, các gói dữ liệu bị mất hoàn toàn trong quá trình truyền, tạo ra một bản ghi trống ở phía người nhận. Ngoài ra, lỗi truyền có thể xảy ra nếu người nhận không sẵn sàng chấp nhận tất cả các thuộc tính dữ liệu cần thiết.

‍Có thể tránh những sự cố này bằng cách tuân theo một số quy tắc cơ bản, chẳng hạn như sử dụng phần mềm phát hiện lỗi, kiểm soát truy cập thích hợp, tạo bản sao lưu và sử dụng các kỹ thuật xác thực.

Những gì là Chất lượng dữ liệu?

“Chất lượng dữ liệu” mô tả độ tin cậy của dữ liệu, độ chính xác và tính nhất quán của dữ liệu. Dữ liệu chất lượng cao là chính xác và hữu ích cho việc ra quyết định tốt. Dữ liệu chất lượng thấp mô tả dữ liệu chứa thông tin bị lỗi và hỗ trợ các quyết định có thể gây thiệt hại cho doanh nghiệp. Chất lượng dữ liệu dựa trên tính duy nhất, chính xác, kịp thời và nhất quán của dữ liệu.‍

Plato đã sử dụng từ “chất lượng” để chỉ một đặc điểm, mà vẫn tiếp tục là một trong những nghĩa của nó. Trong thời kỳ đen tối, các hiệp hội thương mại và sản xuất đã áp dụng một hệ thống đo lường thô sơ cho khái niệm chất lượng (“chất lượng kém, chất lượng trung bình, chất lượng cao”). Dữ liệu chất lượng cao có nghĩa là dữ liệu chính xác cho mục đích nghiên cứu và kinh doanh thông minh. 

Dữ liệu có chất lượng cao phải là:

  • Độc nhất: Dữ liệu trùng lặp hoặc dữ liệu dư thừa không chỉ có khả năng ảnh hưởng tiêu cực đến nghiên cứu thống kê mà còn có thể tạo ra những trục trặc thú vị, chẳng hạn như gửi cho khách hàng cùng một sản phẩm hai lần, chỉ với một khoản phí hoặc tính phí hai lần cho cùng một khách hàng cho một lần mua hàng . 
  • Chính xác: Dữ liệu được thu thập không được chứa lỗi hoặc thông tin sai lệch. Dữ liệu cung cấp thông tin không chính xác – do lỗi của con người, dữ liệu hết hạn hoặc dữ liệu mơ hồ – có thể dẫn đến những sai lầm tốn kém. Ví dụ: sử dụng dữ liệu có tiêu đề kém hoặc không chính xác từ khu vực Châu Âu để dự đoán doanh số bán hàng ở Châu Á sẽ mang lại kết quả không chính xác, có thể tạo ra thảm họa cho doanh nghiệp.
  • Cập nhật: Dữ liệu phải là hiện tại và cập nhật. Thông tin cũ có thể còn nguy hiểm hơn thông tin bị thiếu (vì giả định rằng nó vẫn đúng).
  • Thích hợp: Nên có các mẫu được thiết lập, lặp đi lặp lại để ghi nhãn, lưu trữ và trình bày dữ liệu. Tất cả các bản ghi dữ liệu phải được thể hiện bằng các mẫu nhất quán để hỗ trợ hiệu quả và sự hài hòa trong văn hóa nơi làm việc. Hãy xem xét sự nhầm lẫn có thể xảy ra nếu các văn phòng khác nhau sử dụng hai định dạng ngày khác nhau, chẳng hạn như tháng/ngày/năm của Mỹ và ngày/tháng/năm của Châu Âu. (Ngày 12/10/23 sẽ rơi vào tháng XNUMX hay tháng XNUMX?).

Hầu hết Vấn đề về chất lượng dữ liệu là kết quả của lỗi con người và các chính sách thu thập dữ liệu rối loạn chức năng. 

Cải thiện tính toàn vẹn của dữ liệu

‍Có thể thực hiện một số bước để cải thiện tính toàn vẹn của dữ liệu. Thông thường, sự cố hỏng dữ liệu sẽ tự xuất hiện ngay khi ai đó cố gắng làm việc với nó. Mục tiêu là để tránh phải xử lý dữ liệu bị hỏng ngay từ đầu. Các cách cải thiện tính toàn vẹn của dữ liệu được liệt kê dưới đây: 

  • Khả năng tương thích: Một tổ chức có thể có dữ liệu được lưu trữ trong cơ sở dữ liệu quan hệ, hệ thống kế thừa, kho dữ liệu và trong các ứng dụng dựa trên đám mây, v.v. Mỗi hệ thống lưu trữ này đều có “ngôn ngữ” và phương thức lưu trữ riêng. Tính toàn vẹn của dữ liệu yêu cầu các hệ thống này phải được “căn chỉnh” và tương thích với nhau. Trong hầu hết các trường hợp, dữ liệu bị hỏng sẽ không thể đọc được bằng phần mềm máy tính, ứng dụng web hoặc ứng dụng dành cho thiết bị di động. 
  • Tự động hóa: Việc sử dụng tự động hóa giảm thiểu lỗi của con người, từ đó thúc đẩy tính toàn vẹn của dữ liệu.
  • An ninh: Vi-rút và lỗi, cũng như tin tặc có mục đích xấu, có thể cố tình làm hỏng và bóp méo dữ liệu. Bảo mật thích hợp có thể bảo vệ dữ liệu khỏi vi-rút, lỗi và các cuộc tấn công của tin tặc được thiết kế để làm cho dữ liệu không sử dụng được. 
  • Sao lưu dữ liệu: Hệ thống lưu trữ dự phòng có thể lưu trữ dữ liệu một cách an toàn trước khi dữ liệu bị hỏng, cung cấp phiên bản sao lưu khẩn cấp của dữ liệu. 
  • Phần mềm hữu ích: Có nhiều giải pháp phần mềm được thiết kế để nâng cao tính toàn vẹn của dữ liệu. 

Cải thiện chất lượng dữ liệu

Cũng như tính toàn vẹn của dữ liệu, có nhiều cách để cải thiện Chất lượng dữ liệu. Các cách cải thiện Chất lượng Dữ liệu được liệt kê bên dưới.

  • Sửa lỗi dữ liệu ngay lập tức: Xác định và sửa lỗi trong dữ liệu một cách nhanh chóng, trước khi chúng có thể có bất kỳ tác động nào, có thể cải thiện hiệu quả. ETL (quá trình trích xuất, chuyển đổi và tải) có thể được sử dụng để tích hợp dữ liệu từ nhiều nguồn và lưu trữ dưới dạng dữ liệu thống nhất, nhất quán để sử dụng sau này. 
  • Loại bỏ silo dữ liệu: Nhiều tổ chức lớn đã vô tình phát triển kho dữ liệu (lưu trữ dữ liệu biệt lập) trong các phòng ban khác nhau hoặc các địa điểm thực tế khác. Dữ liệu này không có sẵn cho phần còn lại của tổ chức và có thể hạn chế nghiên cứu. Ngoài ra, các bộ phận duy trì silo dữ liệu thường dễ gặp phải các vấn đề về Chất lượng dữ liệu của chính họ. Việc tập trung dữ liệu của doanh nghiệp giúp dữ liệu dễ truy cập và sử dụng hơn, đồng thời đảm bảo tất cả dữ liệu đều thống nhất và có sẵn để nghiên cứu.
  • Thu thập dữ liệu phù hợp: Một doanh nghiệp có thể thu thập lượng dữ liệu đáng kể, nhưng dữ liệu đó có thực sự hữu ích không? Là nó thu thập các thông tin chính xác? phát triển một quá trình thu thập tập trung vào các câu hỏi và từ khóa phù hợp, đồng thời tránh các trang web có khả năng vô dụng hoặc gây hại, sẽ cải thiện hiệu quả.
  • Thúc đẩy văn hóa dựa trên dữ liệu: Xây dựng chương trình quản trị dữ liệu có thể được sử dụng để thúc đẩy sự phát triển của văn hóa dựa trên dữ liệu. Quản trị dữ liệu là sự kết hợp giữa phần mềm và thay đổi văn hóa thúc đẩy việc sử dụng dữ liệu hiệu quả. Nó đòi hỏi sự tham gia của tất cả nhân viên và người quản lý và sử dụng một khuôn khổ cho việc thu thập và sử dụng dữ liệu chất lượng cao.
  • Tự động hóa: Việc sử dụng tự động hóa giảm thiểu lỗi của con người, lần lượt thúc đẩy chất lượng dữ liệu

Hình ảnh được sử dụng theo giấy phép từ Shutterstock.com

tại chỗ_img

Tin tức mới nhất

tại chỗ_img