Logo Zephyrnet

Quản trị dữ liệu có thể giải quyết sự mệt mỏi của AI không? – KDnuggets

Ngày:

Quản trị dữ liệu có thể giải quyết sự mệt mỏi của AI không?
Hình ảnh của Tác giả
 

Quản trị dữ liệu và sự mệt mỏi của AI nghe có vẻ giống như hai khái niệm khác nhau, nhưng có một mối liên hệ nội tại giữa hai khái niệm này. Để hiểu rõ hơn, hãy bắt đầu với định nghĩa của họ. 

Nó đã là trọng tâm cốt lõi của ngành dữ liệu trong một thời gian dài.

Google nói rõ hơn – “Quản trị dữ liệu là mọi việc bạn làm để đảm bảo dữ liệu được an toàn, riêng tư, chính xác, khả dụng và có thể sử dụng được. Nó liên quan đến việc thiết lập các tiêu chuẩn nội bộ—chính sách dữ liệu—áp dụng cho cách thu thập, lưu trữ, xử lý và xử lý dữ liệu.”

Như định nghĩa này nêu bật, quản trị dữ liệu là quản lý dữ liệu – chính xác là động cơ thúc đẩy các mô hình AI.

Giờ đây, những dấu hiệu đầu tiên về mối liên hệ giữa quản trị dữ liệu và AI đã bắt đầu xuất hiện, hãy liên hệ nó với sự mệt mỏi của AI. Mặc dù cái tên đã tiết lộ nhưng việc nêu bật những lý do dẫn đến sự mệt mỏi như vậy sẽ đảm bảo việc sử dụng thuật ngữ này một cách nhất quán trong suốt bài viết.  

Sự mệt mỏi của AI xuất hiện do những trở ngại và thách thức mà các tổ chức, nhà phát triển hoặc nhóm phải đối mặt, thường dẫn đến việc hiện thực hóa hoặc triển khai giá trị không thành công của hệ thống AI.

Nó chủ yếu bắt đầu với những kỳ vọng không thực tế về khả năng của AI. Đối với các công nghệ phức tạp như AI, các bên liên quan chính cần phải điều chỉnh không chỉ khả năng và khả năng của AI mà còn cả những hạn chế và rủi ro của nó.

Nói về rủi ro, đạo đức thường được coi là vấn đề muộn màng dẫn đến việc loại bỏ các sáng kiến ​​AI không tuân thủ.

Chắc hẳn bạn đang thắc mắc về vai trò của quản trị dữ liệu trong việc gây ra sự mệt mỏi cho AI - tiền đề của bài đăng này.

Đó là nơi chúng ta sẽ hướng tới tiếp theo. 

Sự mệt mỏi của AI có thể được phân loại rộng rãi thành giai đoạn trước triển khai và sau triển khai. Trước tiên chúng ta hãy tập trung vào việc triển khai trước.

Trước khi triển khai

Nhiều yếu tố khác nhau góp phần hoàn thiện Bằng chứng khái niệm (PoC) để triển khai, chẳng hạn như:

  • Chúng ta đang cố gắng giải quyết điều gì?
  • Tại sao nó lại là một vấn đề hấp dẫn cần được ưu tiên ngay bây giờ?
  • Dữ liệu nào có sẵn?
  • Nó có thể giải quyết được ML ngay từ đầu không?
  • Dữ liệu có mẫu không?
  • Hiện tượng này có lặp lại được không?
  • Dữ liệu bổ sung nào sẽ nâng cao hiệu suất của mô hình?

 

Quản trị dữ liệu có thể giải quyết sự mệt mỏi của AI không?
Hình ảnh từ Freepik 
 

Sau khi chúng tôi đánh giá rằng vấn đề có thể được giải quyết tốt nhất bằng thuật toán ML, nhóm khoa học dữ liệu sẽ thực hiện phân tích dữ liệu khám phá. Nhiều mẫu dữ liệu cơ bản được phát hiện ở giai đoạn này, làm nổi bật liệu dữ liệu đã cho có giàu tín hiệu hay không. Nó cũng giúp tạo ra các tính năng được thiết kế để tăng tốc quá trình học thuật toán.

Tiếp theo, nhóm xây dựng mô hình cơ sở đầu tiên thường nhận thấy rằng nó không hoạt động ở mức có thể chấp nhận được. Một mô hình có kết quả tốt như việc lật đồng xu sẽ không có giá trị gì. Đây là một trong những trở ngại đầu tiên, hay còn gọi là bài học, khi xây dựng mô hình ML.

Các tổ chức có thể chuyển từ vấn đề kinh doanh này sang vấn đề kinh doanh khác, gây ra mệt mỏi. Tuy nhiên, nếu dữ liệu cơ bản không mang tín hiệu phong phú thì không có thuật toán AI nào có thể xây dựng dựa trên nó. Mô hình phải học các liên kết thống kê từ dữ liệu huấn luyện để khái quát hóa dữ liệu chưa nhìn thấy.

Sau triển khai

Mặc dù mô hình được đào tạo cho thấy kết quả đầy hứa hẹn trên bộ xác thực, phù hợp với các tiêu chí kinh doanh đủ điều kiện, chẳng hạn như độ chính xác 70%, nhưng sự mệt mỏi vẫn có thể nảy sinh nếu mô hình không hoạt động đầy đủ trong môi trường sản xuất.

Loại mệt mỏi AI này được gọi là giai đoạn sau triển khai. 

Vô số lý do có thể dẫn đến hiệu suất kém, trong đó chất lượng dữ liệu kém là vấn đề phổ biến nhất gây khó khăn cho mô hình. Nó hạn chế khả năng của mô hình trong việc dự đoán chính xác phản ứng mục tiêu khi không có các thuộc tính quan trọng. 

Hãy cân nhắc khi một trong những tính năng thiết yếu vốn chỉ bị thiếu 10% trong dữ liệu huấn luyện giờ trở thành vô hiệu 50% trong dữ liệu sản xuất, dẫn đến dự đoán sai. Những lần lặp lại và nỗ lực như vậy nhằm đảm bảo các mô hình hoạt động nhất quán sẽ tạo ra sự mệt mỏi cho các nhà khoa học dữ liệu và nhóm kinh doanh, từ đó làm xói mòn niềm tin vào đường dẫn dữ liệu và gây rủi ro cho các khoản đầu tư vào dự án.

Các biện pháp quản trị dữ liệu mạnh mẽ là rất quan trọng trong việc giải quyết cả hai loại mệt mỏi của AI. Vì dữ liệu là cốt lõi của các mô hình ML, nên dữ liệu giàu tín hiệu, không có lỗi và chất lượng cao là điều bắt buộc để một dự án ML thành công. Giải quyết tình trạng mệt mỏi của AI đòi hỏi phải tập trung mạnh mẽ vào quản trị dữ liệu. Vì vậy, chúng ta phải làm việc nghiêm túc để đảm bảo chất lượng dữ liệu phù hợp, đặt nền tảng để xây dựng các mô hình hiện đại và cung cấp thông tin chi tiết đáng tin cậy về doanh nghiệp.

Chất lượng dữ liệu

Chất lượng dữ liệu, chìa khóa để phát triển quản trị dữ liệu, là yếu tố thành công quan trọng đối với các thuật toán học máy. Các tổ chức phải đầu tư vào chất lượng dữ liệu, chẳng hạn như xuất bản báo cáo cho người tiêu dùng dữ liệu. Trong các dự án khoa học dữ liệu, hãy nghĩ đến điều gì sẽ xảy ra khi dữ liệu chất lượng kém được đưa vào mô hình, điều này có thể dẫn đến hiệu suất kém.

Chỉ trong quá trình phân tích lỗi, các nhóm mới xác định được mối lo ngại về chất lượng dữ liệu, những mối lo ngại này khi được gửi đi sửa chữa ngược dòng sẽ khiến các nhóm mệt mỏi.

Rõ ràng, đó không chỉ là nỗ lực bỏ ra mà còn mất rất nhiều thời gian cho đến khi dữ liệu phù hợp bắt đầu được đưa vào.

Do đó, chúng tôi luôn khuyên bạn nên khắc phục các sự cố dữ liệu tại nguồn để ngăn chặn việc lặp lại tốn thời gian như vậy. Cuối cùng, các báo cáo chất lượng dữ liệu được xuất bản ám chỉ nhóm khoa học dữ liệu (hoặc, đối với vấn đề đó, bất kỳ người dùng và người tiêu dùng dữ liệu nào khác) hiểu rõ về chất lượng có thể chấp nhận được của dữ liệu đến.

Nếu không có các biện pháp quản trị và chất lượng dữ liệu, các nhà khoa học dữ liệu sẽ phải gánh quá nhiều vấn đề về dữ liệu, góp phần khiến các mô hình không thành công khiến AI trở nên mệt mỏi. 

Bài đăng nêu bật hai giai đoạn mà AI bắt đầu mệt mỏi và trình bày cách các biện pháp quản trị dữ liệu như báo cáo chất lượng dữ liệu có thể hỗ trợ xây dựng các mô hình mạnh mẽ và đáng tin cậy.

Bằng cách thiết lập nền tảng vững chắc thông qua quản trị dữ liệu, các tổ chức có thể xây dựng lộ trình phát triển và áp dụng AI thành công và liền mạch, đồng thời khơi dậy sự nhiệt tình.

Để đảm bảo bài đăng cung cấp cái nhìn tổng quan toàn diện về các cách khác nhau để giải quyết sự mệt mỏi của AI, tôi cũng nhấn mạnh vai trò của văn hóa tổ chức, kết hợp với các phương pháp hay nhất khác như quản trị dữ liệu, sẽ cho phép và trao quyền cho các nhóm khoa học dữ liệu để xây dựng những đóng góp AI có ý nghĩa sớm hơn và hiệu quả hơn. nhanh hơn.
 
 

Vidhi Chung là một nhà chiến lược AI và một nhà lãnh đạo chuyển đổi kỹ thuật số làm việc tại điểm giao nhau giữa sản phẩm, khoa học và kỹ thuật để xây dựng các hệ thống máy học có thể mở rộng. Cô ấy là một nhà lãnh đạo đổi mới từng đoạt giải thưởng, một tác giả và một diễn giả quốc tế. Cô ấy đang thực hiện sứ mệnh dân chủ hóa công nghệ máy học và phá vỡ các thuật ngữ để mọi người trở thành một phần của quá trình chuyển đổi này.

tại chỗ_img

Tin tức mới nhất

tại chỗ_img