Logo Zephyrnet

MLOps và sự phát triển của khoa học dữ liệu – IBM Blog

Ngày:

MLOps và sự phát triển của khoa học dữ liệu – IBM Blog



Sự tiến bộ của sức mạnh điện toán trong những thập kỷ gần đây đã dẫn đến sự bùng nổ dữ liệu kỹ thuật số, từ camera giao thông theo dõi thói quen của người đi lại đến tủ lạnh thông minh tiết lộ cách thức và thời điểm một gia đình bình thường ăn uống. Cả các nhà khoa học máy tính và lãnh đạo doanh nghiệp đều lưu ý đến tiềm năng của dữ liệu. Thông tin có thể giúp chúng ta hiểu sâu hơn về cách thế giới của chúng ta vận hành—đồng thời giúp tạo ra các sản phẩm tốt hơn và “thông minh hơn”.

Học máy (ML), một tập hợp con của trí tuệ nhân tạo (AI), là một phần quan trọng của đổi mới dựa trên dữ liệu. Các kỹ sư máy học lấy các tập dữ liệu lớn và sử dụng các phương pháp thống kê để tạo các thuật toán được đào tạo để tìm các mẫu và khám phá những hiểu biết quan trọng trong các dự án khai thác dữ liệu. Những hiểu biết sâu sắc này có thể giúp thúc đẩy các quyết định trong kinh doanh và thúc đẩy thiết kế cũng như thử nghiệm các ứng dụng.

Ngày nay, 35% công ty báo cáo sử dụng AI trong hoạt động kinh doanh của họ, bao gồm cả ML và thêm 42% báo cáo rằng họ đang khám phá AI, theo báo cáo Chỉ số chấp nhận AI toàn cầu của IBM 2022. Do ML ngày càng được tích hợp nhiều hơn vào các hoạt động kinh doanh hàng ngày nên các nhóm khoa học dữ liệu đang tìm kiếm những cách nhanh hơn, hiệu quả hơn để quản lý các sáng kiến ​​ML, tăng độ chính xác của mô hình và thu được thông tin chuyên sâu hơn.

MLOps là sự phát triển tiếp theo của phân tích dữ liệu và học sâu. Nó nâng cao khả năng mở rộng của ML trong các ứng dụng trong thế giới thực bằng cách sử dụng các thuật toán để cải thiện hiệu suất và khả năng tái tạo của mô hình. Nói một cách đơn giản, MLOps sử dụng máy học để làm cho máy học hiệu quả hơn.

MLOps là gì?

MLOps, viết tắt của các hoạt động học máy, sử dụng tự động hóa, tích hợp liên tục và phân phối/triển khai liên tục (CI/CD)và các mô hình máy học để hợp lý hóa việc triển khai, giám sát và bảo trì toàn bộ hệ thống máy học.

Bởi vì vòng đời máy học có nhiều thành phần phức tạp liên quan đến nhiều nhóm, nó yêu cầu sự cộng tác chặt chẽ để đảm bảo rằng quá trình chuyển giao diễn ra hiệu quả, từ chuẩn bị dữ liệu và đào tạo mô hình đến triển khai và giám sát mô hình. MLOps thúc đẩy sự hợp tác lớn hơn giữa các nhà khoa học dữ liệu, kỹ sư phần mềm và nhân viên CNTT. Mục tiêu là tạo ra một quy trình có thể mở rộng mang lại giá trị lớn hơn thông qua hiệu quả và độ chính xác.

Nguồn gốc của quy trình MLOps

MLOps ra đời khi nhận ra rằng quản lý vòng đời ML chậm và khó mở rộng quy mô cho ứng dụng kinh doanh. Thuật ngữ này ban đầu được đặt ra vào năm 2015 trong một bài báo nghiên cứu đã xuất bản có tên “Các khoản nợ kỹ thuật ẩn trong hệ thống máy học”, nêu bật các vấn đề phổ biến phát sinh khi sử dụng máy học cho các ứng dụng kinh doanh.

Do các hệ thống ML yêu cầu nguồn lực đáng kể và thời gian thực hiện từ các nhóm thường khác nhau nên các vấn đề nảy sinh do thiếu sự hợp tác và những hiểu lầm đơn giản giữa các nhà khoa học dữ liệu và nhóm CNTT về cách xây dựng quy trình tốt nhất. Bài báo đã đề xuất tạo ra một quy trình “MLOps” có hệ thống kết hợp phương pháp CI/CD thường được sử dụng trong DevOps về cơ bản là tạo ra một dây chuyền lắp ráp cho mỗi bước.

MLOps nhằm mục đích hợp lý hóa thời gian và tài nguyên cần thiết để chạy các mô hình khoa học dữ liệu bằng cách sử dụng các cải tiến tự động hóa, ML và lặp lại trên mỗi phiên bản mô hình.

Cách thức hoạt động của quá trình phát triển máy học

Để hiểu rõ hơn về quy trình MLOps và các ưu điểm của nó, trước tiên, cần xem lại cách các dự án ML phát triển thông qua phát triển mô hình.

Trước tiên, mỗi tổ chức bắt đầu quy trình ML bằng cách chuẩn hóa hệ thống ML của họ với một bộ thực hành cơ bản, bao gồm:

  • Những nguồn dữ liệu nào sẽ được sử dụng.
  • Làm thế nào các mô hình được lưu trữ.
  • Nơi chúng được triển khai.
  • Quy trình theo dõi và giải quyết các vấn đề trong các mô hình khi đưa vào sản xuất.
  • Cách sử dụng ML để tự động hóa quy trình tinh chỉnh thành quy trình ML theo chu kỳ.
  • MLOps sẽ được sử dụng như thế nào trong tổ chức.

Sau khi được xác định, các kỹ sư ML có thể bắt đầu xây dựng đường dẫn dữ liệu ML:

  • Tạo và thực hiện quy trình quyết định—Các nhóm khoa học dữ liệu làm việc với các nhà phát triển phần mềm để tạo ra các thuật toán có thể xử lý dữ liệu, tìm kiếm các mẫu và “đoán” điều gì có thể xảy ra tiếp theo.
  • Tiến hành xác thực trong quy trình lỗi—Phương pháp này đo lường mức độ tốt của phỏng đoán bằng cách so sánh nó với các ví dụ đã biết khi có sẵn. Nếu quá trình quyết định không đúng, thì nhóm sẽ đánh giá mức độ sai sót tồi tệ như thế nào.
  • Sử dụng kỹ thuật tính năng để đạt được tốc độ và độ chính xác—Trong một số trường hợp, tập dữ liệu có thể quá lớn, thiếu dữ liệu hoặc bao gồm các thuộc tính không cần thiết để đạt được kết quả mong muốn. Đó là lúc kỹ thuật tính năng ra đời. Mỗi thuộc tính dữ liệu hoặc tính năng được quản lý trong kho tính năng và có thể được thêm, xóa, kết hợp hoặc điều chỉnh để cải thiện mô hình máy học. Mục tiêu là đào tạo mô hình tốt hơn để có hiệu suất tốt hơn và kết quả chính xác hơn.
  • Bắt đầu cập nhật và tối ưu hóa—Tại đây, các kỹ sư ML sẽ bắt đầu “đào tạo lại” phương pháp mô hình ML bằng cách cập nhật cách quy trình đưa ra quyết định đi đến quyết định cuối cùng, nhằm tiến gần hơn đến kết quả lý tưởng.
  • Lặp lại—Các nhóm sẽ thực hiện lại từng bước của quy trình ML cho đến khi họ đạt được kết quả mong muốn.

Các bước trong quy trình MLOps

Trường hợp MLOps nhận thấy lợi ích lớn nhất là ở sự phối hợp lặp đi lặp lại các nhiệm vụ. Trong khi các nhà khoa học dữ liệu đang xem xét các nguồn dữ liệu mới, các kỹ sư đang điều chỉnh cấu hình ML. Thực hiện các điều chỉnh đồng thời trong thời gian thực giúp giảm đáng kể thời gian dành cho các cải tiến.

Dưới đây là các bước thường được thực hiện trong quy trình MLOps:

  1. Chuẩn bị và chia sẻ dữ liệu—Các nhóm ML chuẩn bị các tập dữ liệu và chia sẻ chúng trong các danh mục, tinh chỉnh hoặc xóa dữ liệu không đầy đủ hoặc trùng lặp để chuẩn bị cho việc lập mô hình, cũng như đảm bảo dữ liệu có sẵn giữa các nhóm.
  2. Xây dựng và đào tạo các mô hình—Đây là nơi các nhóm ML sử dụng các phương pháp Ops để tạo MLOps. Sử dụng AutoML hoặc AutoAI, các thư viện mã nguồn mở như scikit-learning và hyperopt hoặc mã hóa thủ công bằng Python, các kỹ sư ML tạo và đào tạo các mô hình ML. Tóm lại, họ đang sử dụng các mô hình đào tạo ML hiện có để đào tạo các mô hình mới cho các ứng dụng kinh doanh.
  3. Các mô hình triển khai—Các mô hình ML có sẵn trong không gian triển khai và được truy cập thông qua giao diện người dùng (UI) hoặc sổ ghi chép, chẳng hạn như sổ ghi chép Jupyter. Đây là nơi các nhóm có thể giám sát các mô hình đã triển khai và tìm kiếm sự thiên vị tiềm ẩn.
  4. Cải thiện mô hình bằng tự động hóa—Trong giai đoạn này, tương tự như quy trình xử lý lỗi ở trên, các nhóm sử dụng dữ liệu đào tạo đã thiết lập để tự động hóa việc cải thiện mô hình đang được thử nghiệm. Các nhóm có thể sử dụng các công cụ như Watson OpenScale để đảm bảo các mô hình chính xác và sau đó thực hiện các điều chỉnh thông qua giao diện người dùng.
  5. Tự động hóa vòng đời ML—Sau khi các mô hình được xây dựng, đào tạo và thử nghiệm, các nhóm sẽ thiết lập tính năng tự động hóa trong các quy trình ML để tạo ra các quy trình có thể lặp lại cho một quy trình thậm chí còn hiệu quả hơn.

Trí tuệ nhân tạo đang phát triển MLOps như thế nào

Việc phát hành ChatGPT của OpenAI đã khơi dậy mối quan tâm về các khả năng của AI trong các ngành và lĩnh vực. Công nghệ này, được gọi là AI tổng quát, có khả năng viết mã phần mềm, tạo hình ảnh và tạo ra nhiều loại dữ liệu, cũng như phát triển hơn nữa quy trình MLOps.

Trí tuệ nhân tạo là một loại mô hình học sâu lấy dữ liệu thô, xử lý dữ liệu đó và “học hỏi” để tạo ra các đầu ra có thể xảy ra. Nói cách khác, mô hình AI sử dụng một biểu diễn đơn giản của dữ liệu đào tạo để tạo ra một tác phẩm mới tương tự, nhưng không giống với dữ liệu gốc. Ví dụ: bằng cách phân tích ngôn ngữ mà Shakespeare sử dụng, người dùng có thể nhắc mô hình AI tổng quát tạo một bản sonnet giống Shakespeare về một chủ đề nhất định để tạo ra một tác phẩm hoàn toàn mới.

Trí tuệ nhân tạo dựa trên các mô hình nền tảng để tạo ra một quy trình có thể mở rộng. Khi AI phát triển, các nhà khoa học dữ liệu đã thừa nhận rằng việc xây dựng các mô hình AI cần rất nhiều dữ liệu, năng lượng và thời gian, từ việc biên dịch, dán nhãn và xử lý các bộ dữ liệu mà các mô hình sử dụng để “học” đến năng lượng cần thiết để xử lý dữ liệu và đào tạo lặp đi lặp lại. các mô hình. Các mô hình nền tảng nhằm giải quyết vấn đề này. Một mô hình nền tảng cần một lượng dữ liệu khổng lồ và việc sử dụng phương pháp học tự giám sát và học chuyển giao có thể lấy dữ liệu đó để tạo các mô hình cho nhiều loại tác vụ.

Sự tiến bộ này trong AI có nghĩa là các bộ dữ liệu không dành riêng cho nhiệm vụ—mô hình có thể áp dụng thông tin đã học được về tình huống này cho tình huống khác. Các kỹ sư hiện đang sử dụng các mô hình nền tảng để tạo các mô hình đào tạo cho các quy trình MLOps nhanh hơn. Họ chỉ cần lấy mô hình nền tảng và tinh chỉnh nó bằng cách sử dụng dữ liệu của chính họ, thay vì lấy dữ liệu của họ và xây dựng mô hình từ đầu.

Lợi ích của MLOps

Khi các công ty tạo ra một quy trình chuẩn hóa, hợp tác và hiệu quả hơn để xây dựng các mô hình ML, điều đó cho phép họ mở rộng quy mô nhanh hơn và sử dụng MLOps theo những cách mới để hiểu sâu hơn về dữ liệu kinh doanh. Các lợi ích khác bao gồm:

  • Tăng năng suất—Bản chất lặp đi lặp lại của các phương pháp MLOps giải phóng thời gian cho CNTT, kỹ sư, nhà phát triển và nhà khoa học dữ liệu để tập trung vào công việc cốt lõi.
  • Trách nhiệm giải trình—Theo Chỉ số chấp nhận AI toàn cầu của IBM 2022, phần lớn các tổ chức chưa thực hiện các bước quan trọng để đảm bảo AI của họ đáng tin cậy và có trách nhiệm, chẳng hạn như giảm sai lệch (74%), theo dõi các biến thể hiệu suất và sai lệch mô hình (68%) và đảm bảo rằng họ có thể giải thích các quyết định do AI cung cấp (61%). Tạo một quy trình MLOps xây dựng trong giám sát và xác thực dữ liệu để cung cấp khả năng quản trị tốt, trách nhiệm giải trình và độ chính xác của việc thu thập dữ liệu.
  • Hiệu quả và tiết kiệm chi phí—Các mô hình khoa học dữ liệu trước đây yêu cầu sức mạnh tính toán đáng kể với chi phí cao. Khi các mô hình khoa học dữ liệu tốn thời gian này được sắp xếp hợp lý và các nhóm có thể thực hiện các cải tiến đồng thời, điều đó sẽ tiết kiệm thời gian và chi phí.
  • Giảm thiểu rủi ro—Các mô hình máy học cần được xem xét và xem xét kỹ lưỡng. MLOps cho phép minh bạch hơn và phản hồi nhanh hơn đối với các yêu cầu đó. Khi các tổ chức đáp ứng các chỉ số tuân thủ, nó sẽ giảm nguy cơ chậm trễ tốn kém và lãng phí nỗ lực.

Các trường hợp sử dụng MLOps

Có vô số trường hợp sử dụng kinh doanh cho deep learning và ML. Dưới đây là một số trường hợp mà MLOps có thể thúc đẩy sự đổi mới hơn nữa.

CNTT—Việc sử dụng MLOps tạo ra khả năng hiển thị lớn hơn cho các hoạt động, với một trung tâm trung tâm để triển khai, giám sát và sản xuất, đặc biệt là khi xây dựng các mô hình AI và máy học.

Khoa học dữ liệu—Các nhà khoa học dữ liệu có thể sử dụng MLOps không chỉ vì hiệu quả mà còn để giám sát tốt hơn các quy trình và quản trị tốt hơn để tạo điều kiện tuân thủ quy định.

DevOps—Các nhóm vận hành và kỹ sư dữ liệu có thể quản lý các quy trình ML tốt hơn bằng cách triển khai các mô hình được viết bằng ngôn ngữ lập trình mà họ quen thuộc, chẳng hạn như Python và R, trên môi trường thời gian chạy hiện đại.

MLOps so với DevOps

DevOps là quá trình phân phối phần mềm bằng cách kết hợp và tự động hóa công việc của các nhóm vận hành CNTT và phát triển phần mềm. Mặt khác, MLOps dành riêng cho các dự án máy học.

Tuy nhiên, MLOps vay mượn từ các nguyên tắc DevOps về cách tiếp cận nhanh chóng, liên tục để viết và cập nhật ứng dụng. Mục đích trong cả hai trường hợp là đưa dự án vào sản xuất hiệu quả hơn, cho dù đó là mô hình phần mềm hay máy học. Trong cả hai trường hợp, mục tiêu là sửa lỗi nhanh hơn, phát hành nhanh hơn và cuối cùng là sản phẩm chất lượng cao hơn giúp tăng sự hài lòng của khách hàng.

MLOps so với AIOps

CỨU, hay trí tuệ nhân tạo cho các hoạt động CNTT, sử dụng các khả năng của AI, chẳng hạn như xử lý ngôn ngữ tự nhiên và các mô hình ML, để tự động hóa và hợp lý hóa các quy trình vận hành. Đó là một cách để quản lý khối lượng dữ liệu ngày càng tăng được tạo ra trong môi trường sản xuất và giúp các nhóm vận hành CNTT phản ứng nhanh hơn—thậm chí là chủ động—đối với tình trạng chậm và ngừng hoạt động.

Khi MLOps tập trung vào việc xây dựng và đào tạo các mô hình ML để sử dụng trong một số ứng dụng, AIOps tập trung vào việc tối ưu hóa các hoạt động CNTT.

MLOps và IBM

Watsonx.ai trao quyền cho các nhà khoa học dữ liệu, nhà phát triển và nhà phân tích xây dựng, chạy và quản lý các mô hình AI—đưa AI truyền thống và AI tổng quát vào sản xuất nhanh hơn. Xây dựng các mô hình trực quan hoặc bằng mã, đồng thời triển khai và giám sát vào quá trình sản xuất. Với MLOps, bạn có thể đơn giản hóa việc sản xuất mô hình từ bất kỳ công cụ nào và cung cấp khả năng đào tạo lại mô hình tự động.

Bạn đang tìm cách mở rộng tác động của AI đối với doanh nghiệp của mình?

Khám phá watsonx.ai, studio doanh nghiệp thế hệ tiếp theo của chúng tôi dành cho các nhà xây dựng AI

Thể loại liên quan

Xem thêm từ Trí tuệ nhân tạo

Tối ưu hóa hiệu suất trang web thử nghiệm lâm sàng: Tập trung vào ba khả năng AI

7 phút đọcBài viết này, một phần trong loạt bài của IBM và Pfizer về ứng dụng các kỹ thuật AI để cải thiện hiệu suất thử nghiệm lâm sàng, tập trung vào việc đăng ký và dự báo theo thời gian thực. Ngoài ra, chúng tôi đang tìm cách khám phá các cách để tăng số lượng bệnh nhân, sự đa dạng trong tuyển dụng thử nghiệm lâm sàng và tiềm năng áp dụng AI Sáng tạo và điện toán lượng tử. Hơn bao giờ hết, các công ty nhận thấy rằng việc quản lý các hành trình phụ thuộc lẫn nhau này một cách toàn diện và tích hợp là điều cần thiết để họ thành công trong việc đạt được sự thay đổi. Bất chấp những tiến bộ…

7 phút đọc

Dân chủ hóa dữ liệu: Cách kiến ​​trúc dữ liệu có thể thúc đẩy các quyết định kinh doanh và sáng kiến ​​AI

7 phút đọcDân chủ hóa dữ liệu, giống như thuật ngữ chuyển đổi kỹ thuật số cách đây XNUMX năm, đã trở thành một từ thông dụng phổ biến trong các tổ chức, từ bộ phận CNTT đến C-suite. Nó thường được mô tả như một cách đơn giản để tăng quyền truy cập dữ liệu, nhưng quá trình chuyển đổi còn nhiều hơn thế. Khi được triển khai hiệu quả, nền dân chủ dữ liệu sẽ đơn giản hóa ngăn xếp dữ liệu, loại bỏ những người gác cổng dữ liệu và làm cho các nhóm khác nhau có thể dễ dàng truy cập nền tảng dữ liệu toàn diện của công ty thông qua bảng điều khiển thân thiện với người dùng. Ngoài các khía cạnh kỹ thuật, các mục tiêu là…

7 phút đọc

Chatbot do AI hỗ trợ đang chuyển đổi hoạt động tiếp thị và bán hàng như thế nào

3 phút đọcTrong thời đại AI và kỹ thuật số này, kỳ vọng của khách hàng đã phát triển. Khách hàng ngày càng mong đợi sự hài lòng ngay lập tức: các câu trả lời chính xác, được cá nhân hóa nhanh hơn và dễ dàng hơn bao giờ hết. Họ không muốn điền vào biểu mẫu để yêu cầu báo giá, gửi email để nhận thông tin về giá hoặc chờ đợi để nhận được câu trả lời đơn giản; họ muốn câu trả lời và hành động theo thời gian thực. Trong khi các đại lý trực tiếp có truyền thống xử lý trải nghiệm của khách hàng, các nhà tiếp thị kỹ thuật số đang thích nghi với những kỳ vọng hiện tại của mọi người trong khi phải đối mặt với ngân sách tiếp thị giảm. Các nhóm tiếp thị đang nắm lấy…

3 phút đọc

Cách chatbot cải thiện hoạt động nguồn nhân lực

3 phút đọcCác bộ phận nhân sự ngày nay phải vật lộn để quản lý hiệu quả các hoạt động nguồn nhân lực và các công việc thường ngày, lãng phí thời gian hàng ngày để trả lời các câu hỏi thường gặp của nhân viên khi không có hệ thống tự phục vụ. Khi các chuyên gia nhân sự buộc phải phân bổ thời gian cho những câu hỏi thông thường và các nhiệm vụ lặp đi lặp lại này, họ không thể tập trung vào những công việc có giá trị như tuyển dụng, duy trì và động viên, phát triển lãnh đạo và văn hóa doanh nghiệp. Khi bộ phận nhân sự chuyển sang vai trò chiến lược hơn, việc giải quyết những vấn đề này đã trở thành một điều cần thiết. AI và HR Conversational AI…

3 phút đọc

tại chỗ_img

Tin tức mới nhất

tại chỗ_img