Logo Zephyrnet

Quản lý dữ liệu bị thiếu trong Analytics – DATAVERSITY

Ngày:

Ngày nay, hội đồng quản trị và giám đốc điều hành của công ty hiểu được tầm quan trọng của dữ liệu và phân tích để cải thiện hiệu quả kinh doanh. Tuy nhiên, hầu hết dữ liệu trong doanh nghiệp đều thuộc dạng chất lượng kém, do đó phần lớn dữ liệu và phân tích đều thất bại. Để cải thiện chất lượng dữ liệu, hơn 80% công việc trong các dự án phân tích dữ liệu là về kỹ thuật dữ liệu. Kỹ thuật dữ liệu là việc trích xuất, làm sạch, làm phong phú, chuyển đổi, xác thực và nhập (và quản trị) dữ liệu chất lượng vào hệ thống hợp nhất, thường được gọi là kho dữ liệu (hoặc data mart hoặc data lake). Dữ liệu trong kho dữ liệu thường là hệ thống hồ sơ mà từ đó các nhà khoa học dữ liệu rút ra những hiểu biết sâu sắc. Các hoạt động kỹ thuật dữ liệu điển hình bao gồm loại bỏ các bản sao và giá trị không cần thiết, nhập các bản ghi và thuộc tính mới, chuyển đổi các giá trị dữ liệu – bao gồm chuẩn hóa và tiêu chuẩn hóa – và cuối cùng là xử lý dữ liệu bị thiếu.

Quy trình kỹ thuật dữ liệu

Dữ liệu bị thiếu được định nghĩa là giá trị không được ghi lại và lưu trữ cho một biến, thuộc tính hoặc trường dữ liệu cụ thể. Dữ liệu bị thiếu, bị mất hoặc không đầy đủ gây ra nhiều vấn đề khác nhau cho doanh nghiệp, chẳng hạn như: 

  • Giảm tiện ích và mức độ liên quan của dữ liệu cho hoạt động, tuân thủ và phân tích.
  • Giảm sức mạnh thống kê của những hiểu biết sâu sắc có được. Sức mạnh hoặc độ nhạy thống kê là khả năng một thử nghiệm có ý nghĩa phát hiện ra tác động khi có.
  • Gây ra sự thiên vị trong những hiểu biết sâu sắc được rút ra. Sai lệch dữ liệu xảy ra khi tập dữ liệu không chính xác và không thể hiện được toàn bộ tổng thể. Ngược lại, điều này có thể dẫn đến những phản hồi không đầy đủ và kết quả sai lệch. 

Thiếu danh mục dữ liệu

Dữ liệu bị thiếu, về mặt kỹ thuật được gọi là NULL, cho thấy thiếu giá trị. Dữ liệu bị thiếu có thể thuộc ba loại chính:

  1. Thiếu hoàn toàn ngẫu nhiên (MCAR): Ở đây, dữ liệu bị thiếu trên tất cả các quan sát. Ví dụ: địa chỉ email của khách hàng bị thiếu trong tất cả hồ sơ khách hàng.
  2. Thiếu không ngẫu nhiên (MNAR): Dữ liệu bị thiếu có cấu trúc hoặc mẫu được xác định. Ví dụ: thiếu giá trị thu nhập cho danh mục sinh viên trong hồ sơ khách hàng.
  3. Thiếu ngẫu nhiên (MAR): Ở đây, dữ liệu bị thiếu so với dữ liệu được quan sát. Dữ liệu bị thiếu ngẫu nhiên và không có mẫu nào cho dữ liệu bị thiếu. Ví dụ: ngày sinh của khách hàng bị thiếu trong 12% hồ sơ khách hàng.

Giải pháp cho dữ liệu bị thiếu trong Analytics

Vậy giải pháp nào để giải quyết các danh mục dữ liệu còn thiếu MCAR, MNAR và MAR? Về cơ bản, giải pháp cho dữ liệu bị thiếu có thể thuộc ba loại chính:

  1. Để giải quyết các vấn đề liên quan đến MCAR, giải pháp là cải tiến số hóa, bao gồm triển khai các công nghệ thu thập dữ liệu như nhận dạng ký tự quang học (OCR), xử lý tài liệu thông minh (IDP), mã vạch, mã QR, quét web, v.v. Tuy nhiên, tất cả các giải pháp kỹ thuật số cần được bổ sung bằng việc đào tạo người dùng để có thể áp dụng tốt hơn.
  2. Để giải quyết các vấn đề liên quan đến MNAR, giải pháp là các giải pháp Quản lý dữ liệu cải tiến, chẳng hạn như Quản lý dữ liệu chính (MDM), các phương pháp tích hợp dữ liệu như ETL (trích xuất/chuyển đổi/tải) và EAI (tích hợp ứng dụng doanh nghiệp), Quản trị dữ liệu, v.v. . Mục tiêu của Quản lý dữ liệu là cải thiện độ tin cậy, độ chính xác, bảo mật và tuân thủ cũng như giảm chi phí.
  3. Để giải quyết các vấn đề liên quan đến MAR, các giải pháp có thể liên quan đến các phương pháp xử lý dữ liệu. Sự thay thế là quá trình thay thế dữ liệu bị thiếu bằng các giá trị thay thế. Các phương pháp xử lý dữ liệu phổ biến bao gồm Nội suy của Langrage, thuật toán nội suy tiến và lùi của Gregory Newton và Hồi quy.

Kỹ thuật xử lý dữ liệu MAR

Thiếu ngẫu nhiên (MAR) là tình huống thiếu dữ liệu rất phổ biến mà các nhà khoa học dữ liệu và kỹ sư máy học gặp phải. Điều này chủ yếu là do các vấn đề liên quan đến MCAR và MNAR do bộ phận CNTT xử lý và các vấn đề về dữ liệu do nhóm dữ liệu giải quyết. Tính toán dữ liệu MAR là phương pháp thay thế dữ liệu bị thiếu bằng một giá trị phù hợp. Một số phương pháp tính toán dữ liệu thường được sử dụng cho MAR là:

  • Trong quá trình tính toán hot-deck, một giá trị bị thiếu sẽ được thêm vào từ một bản ghi được chọn ngẫu nhiên đến từ một nhóm các bản ghi dữ liệu tương tự. Trong tính toán hot-deck, xác suất chọn dữ liệu được giả định bằng nhau do hàm ngẫu nhiên được sử dụng để tính toán dữ liệu. 
  • Trong phép tính giá trị lạnh, hàm ngẫu nhiên không được sử dụng để tính giá trị. Thay vào đó, các hàm khác, chẳng hạn như trung bình số học, trung vị và mốt được sử dụng.
  • Ví dụ, với việc tính toán dữ liệu hồi quy, hồi quy tuyến tính bội (MLR), các giá trị của các biến độc lập được sử dụng để dự đoán các giá trị còn thiếu trong biến phụ thuộc bằng cách sử dụng mô hình hồi quy. Ở đây, đầu tiên mô hình hồi quy được rút ra, sau đó mô hình được xác thực và cuối cùng là các giá trị mới, tức là các giá trị còn thiếu, được dự đoán và đưa vào.
  • Nội suy là một kỹ thuật xử lý dữ liệu được sử dụng để dự đoán giá trị của biến phụ thuộc cho một biến độc lập nằm giữa dữ liệu đã cho. Các kỹ thuật nội suy dữ liệu chính bao gồm kỹ thuật nội suy thuận của Gregory Newton, kỹ thuật nội suy ngược của Gregory Newton, kỹ thuật nội suy của LaGrange, v.v.
  • Phép ngoại suy là phép tính một giá trị mở rộng từ một tập hợp các giá trị đã biết. Đó là ước tính của một điều gì đó bằng cách giả định rằng các xu hướng hiện tại sẽ tiếp tục. Các kỹ thuật ngoại suy dữ liệu phổ biến là đường xu hướng và ngoại suy Lagrange. Trong khi các kỹ thuật nội suy lấy giá trị giữa hai điểm trong tập dữ liệu thì kỹ thuật ngoại suy ước tính một giá trị nằm ngoài tập dữ liệu. 

Chiến lược quản lý dữ liệu còn thiếu MAR trong phân tích dữ liệu được minh họa trong hình ảnh bên dưới.

Thiếu danh mục dữ liệu, giải pháp và kỹ thuật

Mặc dù việc cắt bỏ dữ liệu có thể cải thiện chất lượng của dữ liệu, nhưng phải cẩn thận để chọn một kỹ thuật cắt bỏ dữ liệu thích hợp. Một số kỹ thuật quy nạp dữ liệu không bảo toàn mối quan hệ giữa các biến, một số có thể làm sai lệch phân phối dữ liệu cơ bản, một số có thể phụ thuộc vào một loại dữ liệu cụ thể, v.v. Vì vậy, thay vì chỉ dựa vào một kỹ thuật quy nạp dữ liệu, chiến lược nên sử dụng nhiều kỹ thuật để quy định giá trị. Về vấn đề này, các kỹ thuật tập hợp có thể được tận dụng bằng cách áp dụng nhiều thuật toán xử lý dữ liệu để tạo ra một mô hình tối ưu để có hiệu suất tốt hơn.

tại chỗ_img

Tin tức mới nhất

tại chỗ_img