Logo Zephyrnet

Khảo sát: Các dự án Machine Learning vẫn thường xuyên không triển khai được – KDnuggets

Ngày:

Các dự án học máy có thường xuyên được triển khai thành công không? Không thường xuyên đủ. Có nhiều of ngành công nghiệp nghiên cứu hiển thị rằng các dự án ML thường không mang lại lợi nhuận, nhưng rất ít người đánh giá được tỷ lệ thất bại so với thành công từ quan điểm của các nhà khoa học dữ liệu - những người phát triển chính các mô hình mà các dự án này dự định triển khai.

Theo dõi trên một cuộc khảo sát nhà khoa học dữ liệu mà tôi đã thực hiện với KDnuggets năm ngoái, Khảo sát khoa học dữ liệu hàng đầu trong ngành năm nay do công ty tư vấn ML Rexer Analytics điều hành đã giải quyết câu hỏi - một phần vì Karl Rexer, người sáng lập và chủ tịch của công ty, đã cho phép bạn thực sự tham gia, thúc đẩy việc đưa ra các câu hỏi về thành công của việc triển khai (một phần công việc của tôi trong thời gian làm giáo sư phân tích kéo dài một năm mà tôi đã giữ tại UVA Darden).

Tin tức không tuyệt vời. Chỉ 22% nhà khoa học dữ liệu cho biết các sáng kiến ​​“mang tính cách mạng” của họ – các mô hình được phát triển để hỗ trợ một quy trình hoặc khả năng mới – thường được triển khai. 43% nói rằng 80% trở lên không triển khai được.

Băng qua tất cả các các loại dự án ML – bao gồm cả việc làm mới các mô hình cho hoạt động triển khai hiện có – chỉ 32% nói rằng các mô hình của họ thường triển khai.

Dưới đây là kết quả chi tiết của phần khảo sát đó, do Rexer Analytics trình bày, chia nhỏ tỷ lệ triển khai trên ba loại sáng kiến ​​ML:
 

Khảo sát: Các dự án Machine Learning vẫn thường xuyên không triển khai được
 

Chính:

  • Các sáng kiến ​​hiện có: Các mô hình được phát triển để cập nhật/làm mới mô hình hiện có đã được triển khai thành công
  • Các sáng kiến ​​mới: Các mô hình được phát triển để nâng cao quy trình hiện có mà chưa có mô hình nào được triển khai
  • Sáng kiến ​​cách mạng: Các mô hình được phát triển để kích hoạt một quy trình hoặc khả năng mới

Theo quan điểm của tôi, cuộc đấu tranh triển khai này bắt nguồn từ hai yếu tố góp phần chính: việc lập kế hoạch chưa đầy đủ và các bên liên quan trong kinh doanh thiếu tầm nhìn cụ thể. Nhiều chuyên gia dữ liệu và lãnh đạo doanh nghiệp đã không nhận ra rằng hoạt động dự định của ML phải được lên kế hoạch rất chi tiết và theo đuổi tích cực ngay từ khi bắt đầu mọi dự án ML.

Trên thực tế, tôi đã viết một cuốn sách mới về điều đó: Cẩm nang AI: Nắm vững nghệ thuật hiếm có của việc triển khai học máy. Trong cuốn sách này, tôi giới thiệu một phương pháp thực hành sáu bước tập trung vào triển khai để thực hiện các dự án machine learning từ khi hình thành đến khi triển khai mà tôi gọi là bizML (đặt trước bìa cứng hoặc sách điện tử và nhận bản sao nâng cao miễn phí của phiên bản sách nói ngay lập tức).

Các bên liên quan chính của dự án ML - người chịu trách nhiệm về hiệu quả hoạt động được nhắm mục tiêu cải thiện, chẳng hạn như người quản lý ngành kinh doanh - cần có cái nhìn rõ ràng về cách ML sẽ cải thiện hoạt động của họ và mức độ cải thiện dự kiến ​​​​sẽ mang lại. Họ cần điều này để cuối cùng bật đèn xanh cho việc triển khai mô hình cũng như trước đó để cân nhắc việc thực hiện dự án trong suốt các giai đoạn trước khi triển khai.

Nhưng hiệu suất của ML thường không được đo lường! Khi cuộc khảo sát của Rexer hỏi: “Công ty/tổ chức của bạn có thường xuyên đo lường hiệu suất của các dự án phân tích không?” chỉ 48% nhà khoa học dữ liệu nói “Luôn luôn” hoặc “Hầu hết thời gian”. Điều đó khá hoang dã. Nó phải giống như 99% hoặc 100%.

Và khi đo lường hiệu suất, các thước đo kỹ thuật rất phức tạp và hầu như không liên quan đến các bên liên quan trong kinh doanh. Các nhà khoa học dữ liệu biết rõ hơn nhưng nhìn chung không tuân theo - một phần vì các công cụ ML thường chỉ phục vụ các số liệu kỹ thuật. Theo khảo sát, các nhà khoa học dữ liệu xếp hạng KPI kinh doanh như ROI và doanh thu là số liệu quan trọng nhất, tuy nhiên họ liệt kê các số liệu kỹ thuật như mức tăng và AUC là những số liệu được đo lường phổ biến nhất.

Theo Đánh giá khoa học dữ liệu của Harvard. Đây là lý do: Họ chỉ cho bạn biết tương đối hiệu suất của một mô hình, chẳng hạn như cách nó so sánh với dự đoán hoặc đường cơ sở khác. Các số liệu kinh doanh cho bạn biết tuyệt đối giá trị kinh doanh mà mô hình dự kiến ​​sẽ mang lại – hoặc khi đánh giá sau khi triển khai, nó đã được chứng minh là mang lại. Các số liệu như vậy rất cần thiết cho các dự án ML tập trung vào triển khai.

Ngoài khả năng tiếp cận các số liệu kinh doanh, các bên liên quan trong kinh doanh cũng cần tăng cường. Khi cuộc khảo sát của Rexer hỏi: “Những người quản lý và người ra quyết định tại tổ chức của bạn, những người phải phê duyệt việc triển khai mô hình, nhìn chung có đủ hiểu biết để đưa ra những quyết định như vậy một cách đầy đủ thông tin không?” chỉ 49% số người được hỏi trả lời “Hầu hết thời gian” hoặc “Luôn luôn”.

Đây là những gì tôi tin đang xảy ra. “Khách hàng” của nhà khoa học dữ liệu, bên liên quan trong kinh doanh, thường cảm thấy khó chịu khi bắt đầu cho phép triển khai, vì điều đó có nghĩa là thực hiện một thay đổi đáng kể về hoạt động đối với cốt lõi của công ty, quy trình quy mô lớn nhất của công ty. Họ không có khuôn khổ ngữ cảnh. Ví dụ, họ tự hỏi, “Làm sao tôi có thể hiểu được mô hình này, vốn hoạt động không đạt đến độ hoàn hảo như quả cầu pha lê, thực sự sẽ giúp ích được đến mức nào?” Vì thế dự án chết. Sau đó, việc tạo ra một tác động tích cực nào đó lên “những hiểu biết sâu sắc đã đạt được” một cách sáng tạo sẽ giúp loại bỏ thất bại dưới tấm thảm một cách gọn gàng. Sự cường điệu về AI vẫn còn nguyên ngay cả khi giá trị tiềm năng, mục đích của dự án bị mất đi.

Về chủ đề này – tăng cường các bên liên quan – tôi sẽ giới thiệu cuốn sách mới của mình, Sách hướng dẫn AI, chỉ một lần nữa thôi. Trong khi đề cập đến thực tiễn bizML, cuốn sách cũng nâng cao kỹ năng của các chuyên gia kinh doanh bằng cách cung cấp một lượng kiến ​​thức nền tảng bán kỹ thuật quan trọng nhưng thân thiện mà tất cả các bên liên quan cần có để lãnh đạo hoặc tham gia vào các dự án học máy, từ đầu đến cuối. Điều này đặt các chuyên gia kinh doanh và dữ liệu vào cùng một tình thế để họ có thể cộng tác sâu sắc, cùng nhau thiết lập chính xác Học máy được yêu cầu dự đoán những gì, nó dự đoán tốt đến mức nào và các dự đoán của nó được áp dụng như thế nào để cải thiện hoạt động. Những yếu tố cần thiết này tạo nên hoặc phá vỡ từng sáng kiến ​​– việc thực hiện đúng cách sẽ mở đường cho việc triển khai theo hướng giá trị của học máy.

Có thể nói rằng mọi việc ở ngoài đó rất khó khăn, đặc biệt là đối với các sáng kiến ​​ML mới, lần đầu thử nghiệm. Khi sức mạnh cường điệu của AI mất đi khả năng liên tục bù đắp

giá trị thực hiện ít hơn so với đã hứa, sẽ ngày càng có nhiều áp lực để chứng minh giá trị hoạt động của ML.? Vì vậy, tôi nói, hãy vượt qua điều này ngay bây giờ - bắt đầu thấm nhuần văn hóa hợp tác giữa các doanh nghiệp và lãnh đạo dự án theo định hướng triển khai hiệu quả hơn!

Để có kết quả chi tiết hơn từ Khảo sát khoa học dữ liệu Rexer Analytics năm 2023, Click tại đây. Đây là cuộc khảo sát lớn nhất dành cho các chuyên gia phân tích và khoa học dữ liệu trong ngành. Nó bao gồm khoảng 35 câu hỏi trắc nghiệm và câu hỏi mở không chỉ bao gồm tỷ lệ triển khai thành công – bảy lĩnh vực chung của khoa học và thực hành khai thác dữ liệu: (1) Lĩnh vực và mục tiêu, (2) Thuật toán, (3) Mô hình, ( 4) Công cụ (gói phần mềm được sử dụng), (5) Công nghệ, (6) Thách thức và (7) Tương lai. Nó được thực hiện như một dịch vụ (không có sự tài trợ của công ty) cho cộng đồng khoa học dữ liệu và kết quả thường được công bố tại hội nghị Tuần học máy và được chia sẻ thông qua các báo cáo tóm tắt có sẵn miễn phí.
 

Bài viết này là sản phẩm của tác giả trong thời gian ông giữ chức vụ Giáo sư Phân tích cơ thể hai trăm năm tuổi tại Trường Kinh doanh UVA Darden, mà cuối cùng đạt đến đỉnh cao với việc xuất bản cuốn sách Cẩm nang AI: Nắm vững nghệ thuật hiếm có của việc triển khai học máy (ưu đãi sách nói miễn phí).

 
 

Eric Siegel, Tiến sĩ, là nhà tư vấn hàng đầu và cựu giáo sư Đại học Columbia, người làm cho việc học máy trở nên dễ hiểu và hấp dẫn. Ông là người sáng lập của Thế giới phân tích dự đoánThế giới học sâu chuỗi hội nghị, đã phục vụ hơn 17,000 người tham dự kể từ năm 2009, người hướng dẫn khóa học nổi tiếng Thực hành và lãnh đạo bằng máy học - Làm chủ từ đầu đến cuối, một diễn giả nổi tiếng đã được ủy quyền cho Hơn 100 bài phát biểu quan trọng, và biên tập viên điều hành của Thời gian học máy. Ông là tác giả của cuốn sách bán chạy nhất Phân tích dự đoán: Sức mạnh để dự đoán ai sẽ nhấp, mua, nói dối hoặc chết, đã được sử dụng trong các khóa học tại hơn 35 trường đại học và ông đã giành được giải thưởng giảng dạy khi còn là giáo sư tại Đại học Columbia, nơi ông đã hát bài hát giáo dục cho học sinh của mình. Eric cũng xuất bản op-eds về phân tích và công bằng xã hội. Theo dõi anh ấy tại @p dự đoán.

tại chỗ_img

Tin tức mới nhất

tại chỗ_img