Bắt đầu làm sạch dữ liệu - Plato Data Intelligence

Vectơ nền được tạo bởi rawpixel.com - www.freepik.com

Làm sạch dữ liệu là một phần của giai đoạn tiền xử lý và là một bước quan trọng cần được thực hiện trước khi giai đoạn khai thác dữ liệu có thể xảy ra.

Chất lượng dữ liệu là thước đo mức độ phù hợp của một tập dữ liệu để phục vụ mục đích cụ thể của nó và mức độ đáng tin cậy để đưa ra các quyết định đáng tin cậy. Nó được tạo thành từ các đặc điểm như tính chính xác, tính đầy đủ, tính nhất quán, tính hợp lệ và tính kịp thời.

Để đạt được dữ liệu chất lượng, có một quá trình cần phải xảy ra. Đó là làm sạch dữ liệu. Làm sạch dữ liệu bao gồm các loại kỹ thuật khác nhau dựa trên loại dữ liệu và các vấn đề được xác định trong dữ liệu.

Tóm lại, dữ liệu không chính xác có thể là chính xác, bị loại bỏ hoặc được áp dụng.

Dữ liệu không liên quan

Đây là dữ liệu không cần thiết, không có giá trị sử dụng hoặc không áp dụng cho vấn đề đang cố gắng giải quyết.

Ví dụ: nếu chúng tôi đang phân tích dữ liệu về lựa chọn lối sống của bệnh nhân và cách nó ảnh hưởng đến chỉ số BMI của họ, thì địa chỉ điện thoại của họ không có gì là không liên quan như một biến số. Tuy nhiên, tình trạng hút thuốc hoặc tiền sử bệnh của họ là quan trọng và có liên quan để giải quyết vấn đề.

Bạn phải chắc chắn rằng một phần dữ liệu không quan trọng và không liên quan đến vấn đề. Tại thời điểm này, bạn có thể đánh rơi nó. Nếu không, hãy khám phá dữ liệu và tìm mối tương quan giữa các biến.

Nếu bạn vẫn không chắc chắn, hãy hỏi ai đó là chuyên gia trong lĩnh vực này hoặc cấp cao hơn trong công ty. Họ có thể thấy mức độ liên quan trong một biến cụ thể mà bạn có thể không.

Dữ liệu trùng lặp

Các bản sao là dữ liệu được lặp lại trong tập dữ liệu. Điều này thường xảy ra do:

Người dùng có thể tình cờ gửi cùng một câu trả lời hai lần
Một yêu cầu đã được thực hiện hai lần, vì nhiều lý do như sai thông tin hoặc hoàn toàn chỉ gửi một yêu cầu hai lần.
Có sự kết hợp của dữ liệu từ các nguồn khác nhau

Chỉ nên xóa các ví dụ như thế này khỏi dữ liệu, vì nó sẽ ảnh hưởng đến quá trình phân tích của bạn.

Loại dữ liệu

Có nhiều kiểu dữ liệu khác nhau, chẳng hạn như chuỗi, số nguyên và số thực. Đảm bảo dữ liệu được chuyển đổi loại chính xác là điều quan trọng đối với giai đoạn phân tích của bạn. Đảm bảo câu trả lời 'Đúng' hoặc 'Sai' được lưu trữ dưới dạng kiểu dữ liệu boolean. Đảm bảo rằng tên của bệnh nhân được lưu trữ dưới dạng kiểu dữ liệu chuỗi.

Điều này có thể dễ dàng được kiểm tra bằng cách thống kê tóm tắt, được gọi là cấu hình dữ liệu. Nó cung cấp cho bạn một cái nhìn thống kê chung về dữ liệu, giúp bạn xác định các giá trị bị thiếu, loại dữ liệu trong mỗi biến, v.v.

Nếu một số giá trị dữ liệu không thể được chuyển đổi thành một kiểu dữ liệu cụ thể, chúng phải được chuyển đổi thành giá trị NaN hoặc một giá trị khác, cho biết rằng giá trị đó không chính xác và cần được giải quyết.

Lỗi cú pháp

Lỗi cú pháp là những lỗi sai, chẳng hạn như chính tả, dấu câu hoặc giá trị không chính xác.

Khoảng trắng

Khoảng trắng là các ký tự được sử dụng cho khoảng cách và có biểu diễn "trống". Khoảng trắng nên được loại bỏ nếu nó ở đầu hoặc cuối. Ví dụ:

"hello world" => "hello world"

Nhân vật Pad

Ký tự pad là một ký tự hoàn toàn được sử dụng để lấp đầy không gian trống trong một chuỗi để tạo độ dài đồng nhất để giữ cho mọi thứ được căn chỉnh trong một tập dữ liệu. Ví dụ dưới đây chuyển đổi một số nguyên 3 chữ số thành một số nguyên 6 chữ số.

123 => 000123

Các lỗi về chuỗi

Chuỗi thường có nhiều lỗi và sai nhất vì chúng có thể được nhập theo nhiều cách khác nhau. Bạn có thể nói 'Xin chào' hoặc nhập nhầm 'Hllo'. Ví dụ, một cuộc khảo sát đã được thực hiện để hiểu thêm về nhân khẩu học của một thành phố. Nếu không có menu thả xuống để chọn giới tính của bạn, dữ liệu có thể quay trở lại như sau:

Giới Tính: Nam F Người đàn ông Nữ Nữ Nữ chính

Có nhiều giải pháp khác nhau cho vấn đề này, một cách là ánh xạ thủ công từng giá trị thành “nam” hoặc “nữ”

dataframe ['Gender:']. map ({'Man': 'Male', 'Fem': 'Female', ...}]

Các cách làm sạch dữ liệu

Hãy xem xét các cách khác nhau mà bạn có thể làm sạch dữ liệu thô.

1. Chuẩn hóa

Đưa dữ liệu vào cùng một định dạng chuẩn hóa giúp bạn làm sạch dữ liệu và xác định các lỗi trong dữ liệu. Ví dụ: đảm bảo rằng tất cả các giá trị chuỗi đều ở dạng chữ thường hoặc chữ hoa để tránh nhầm lẫn là một khởi đầu tốt.

Đảm bảo rằng tất cả các giá trị số là cùng một phép đo trong cột cụ thể đó, đến một đơn vị duy nhất. Ví dụ, trọng lượng của bệnh nhân thường có thể tính bằng pound (lbs) hoặc kilôgam (kg). Đặt tất cả chúng thành cùng một phép đo giúp cuộc sống của nhà phân tích dễ dàng hơn một chút.

2. Mở rộng quy mô

Chia tỷ lệ dữ liệu có nghĩa là biến đổi dữ liệu sao cho phù hợp với một tỷ lệ cụ thể, chẳng hạn như 0-100 hoặc 0-1. Bằng cách mở rộng quy mô, chúng tôi có thể vẽ biểu đồ, so sánh và phân tích dữ liệu tốt hơn. Ví dụ: chuyển đổi số lượt truy cập mà một người dùng đến phòng tập thể dục có thể được chuyển đổi từ số nguyên thành phần trăm, cho biết mức độ họ đã sử dụng phòng tập thể dục trong một khoảng thời gian cụ thể.

3. Bình thường hóa

Chuẩn hóa là quá trình sắp xếp lại dữ liệu để không có dữ liệu trùng lặp và dữ liệu được lưu trữ ở một nơi. Điểm chuẩn hóa là thay đổi các quan sát của bạn để chúng có thể được mô tả như một phân phối chuẩn.

Nhiều người nhầm lẫn giữa việc chuẩn hóa dữ liệu và chuẩn hóa dữ liệu là như nhau, tuy nhiên, thực tế không phải vậy. Chuẩn hóa thường thay đổi tỷ lệ các giá trị thành phạm vi [0,1], trong khi Chuẩn hóa thường thay đổi tỷ lệ dữ liệu để có giá trị trung bình là 0 và độ lệch chuẩn là 1.

4. NaN / Thiếu giá trị

Thật khó để tránh bị thiếu các giá trị, vì vậy chúng ta phải xử lý chúng bằng cách nào đó. Tuy nhiên, bỏ qua chúng chỉ khiến vấn đề của bạn trở nên tồi tệ hơn. Có nhiều cách khác nhau mà bạn có thể đối phó với chúng.

Thả: Giải pháp đơn giản nhất là bỏ hàng hoặc cột nếu các giá trị bị thiếu xảy ra ngẫu nhiên.
Impute: Việc áp dụng giá trị còn thiếu được tính dựa trên các quan sát khác.
- Bạn có thể sử dụng các phương pháp như giá trị thống kê như giá trị trung bình và giá trị trung vị. Tuy nhiên, chúng không được đảm bảo là dữ liệu 'không thiên vị'.
- Một phương pháp khác là sử dụng hồi quy tuyến tính. Bạn có thể sử dụng một dòng phù hợp nhất trên dữ liệu hiện có giữa hai biến để điền vào giá trị còn thiếu.

Việc điền vào các giá trị còn thiếu có thể gây tranh cãi khi dữ liệu được sử dụng để đưa ra các quyết định quan trọng, phân tích thống kê và cung cấp dữ kiện cho phần còn lại của xã hội. Dữ liệu bị thiếu có giá trị và mang tính thông tin. Ví dụ: nếu một cuộc khảo sát được thực hiện và người dùng từ một nhóm tuổi hoặc nhóm tôn giáo cụ thể từ chối trả lời một câu hỏi. Lý do đằng sau các giá trị bị thiếu là quan trọng và mang tính thông tin cho người thực hiện khảo sát khi yêu cầu một nhà phân tích tìm ra các mối tương quan và kết quả đầu ra.

Bỏ hoặc nhập các giá trị bị thiếu không giống với các giá trị mặc định. Việc gắn cờ những điều này là quan trọng và có thể cho phép phân tích thêm cho các mục đích hiện tại và tương lai.

Các bước tiếp theo

Sau giai đoạn xử lý trước, bao gồm việc loại bỏ hoặc đưa vào dữ liệu; đánh giá lại dữ liệu và đảm bảo rằng quá trình làm sạch không vi phạm bất kỳ quy tắc hoặc thông số nào là quan trọng.

Chuyển dữ liệu hoặc chuyển sang giai đoạn tiếp theo mà không cần báo cáo chất lượng của dữ liệu cũng quan trọng như quy trình làm sạch. Có phần mềm và thư viện có thể phát hiện và báo cáo những thay đổi này, cho biết nếu có bất kỳ quy tắc nào bị vi phạm.

Báo cáo các lỗi trong dữ liệu cho phép doanh nghiệp xác định lý do tại sao chúng xảy ra ngay từ đầu, nếu dữ liệu còn được sử dụng nữa và cách tránh được lỗi đó trong tương lai.

Kết luận

Bạn có thể ngồi đó hàng giờ liền để cố gắng làm sạch dữ liệu, đến mức bạn có thể cảm thấy thất vọng. Tuy nhiên, không có ích lợi khi phân tích dữ liệu xấu. Các giải pháp hỗ trợ băng tần không giải quyết được nguyên nhân của sự cố. Bạn phải hiểu rõ vấn đề và tìm ra cách tốt nhất để khắc phục nó.

Nisha Arya là một nhà khoa học dữ liệu và nhà văn kỹ thuật tự do. Cô ấy đặc biệt quan tâm đến việc cung cấp lời khuyên hoặc hướng dẫn nghề nghiệp về Khoa học Dữ liệu và kiến thức dựa trên lý thuyết về Khoa học Dữ liệu. Cô cũng mong muốn khám phá những cách khác nhau mà Trí tuệ nhân tạo có thể mang lại / có thể mang lại lợi ích cho sự trường tồn của cuộc sống con người. Một người ham học hỏi, tìm cách mở rộng kiến thức công nghệ và kỹ năng viết của mình, đồng thời giúp hướng dẫn người khác.

Trí thông minh dữ liệu tạo

Bắt đầu dữ liệu làm sạch

Dữ liệu không liên quan

Dữ liệu trùng lặp

Loại dữ liệu

Lỗi cú pháp

Khoảng trắng

Nhân vật Pad

Các lỗi về chuỗi

Các cách làm sạch dữ liệu

1. Chuẩn hóa

2. Mở rộng quy mô

3. Bình thường hóa

4. NaN / Thiếu giá trị

Các bước tiếp theo

Kết luận

Giới thiệu về Xử lý ngôn ngữ tự nhiên [Khóa học NLP miễn phí]

ESL Challenger Melbourne 2024: Điểm số, bảng xếp hạng và hơn thế nữa – Snowball Esports

Tin tức mới nhất

Chuyến bay thử nghiệm của phi hành đoàn Starliner đã vượt qua bài đánh giá quan trọng

Điểm dự thảo NFL 2024

Cập nhật: BAE Systems phác thảo tiến độ phát triển khinh hạm Loại 26 trong bối cảnh thiếu công nhân luyện thép

Ethereum, Solana và các loại tiền thay thế đang tiếp cận 'Vùng chuối', Theo Macro Guru Raoul Pal - Đây là quan điểm của ông ấy - The Daily Hodl

Refinanzierung bestehender Dự án cơ hội huy động vốn từ cộng đồng Kredit của Swisspeers

Dự án cơ hội huy động vốn từ cộng đồng của Blackbird Foods của StartEngine

Trò chuyện trực tiếp với chúng tôi (chat)