Açık Kaynak Araçları ile MLOps'a Genel Bakış

Bu makale, Veri Bilimi Blogathon.

Veri bilimi projesinin özü veridir ve bunu tahmine dayalı modeller oluşturmak için kullanmaktır ve herkes heyecanlı ve bize gerçek dünyadaki iş senaryosunu taklit eden mükemmele yakın bir sonuç verecek bir ML modeli oluşturmaya odaklanmıştır. Bu sonuca ulaşmaya çalışırken, bir veri bilimi projesinin diğer çeşitli yönlerini, özellikle operasyonel yönleri göz ardı etme eğilimindedir. Makine öğrenimi projeleri doğası gereği yinelemeli olduğundan, tüm faktörleri, yapılandırmaları ve sonuçları izlemek başlı başına çok zor bir görev haline gelebilir.

Büyüyen ve dağıtılan veri bilimi ekipleriyle ekipler arasında etkili işbirliği kritik hale geliyor. Bu blogda keşfedeceğimiz açık kaynaklı araçlar, yani DVC Stüdyosu ve ML Akışı her yinelemedeki değişiklikleri/sonuçları otomatik olarak izleyerek bu zorluklardan bazılarını ele almamıza yardımcı olacaktır. Daha fazlasını eklemek için, her iki araç da bize sonuçların düzgün bir şekilde sergilendiği ve elbette kullanıcı arayüzünün özelleştirilebilir olduğu çok etkileşimli bir kullanıcı arayüzü sunar !!.

Herhangi bir Önkoşul var mı?

Tek ihtiyacımız olan makine öğrenimi, python ve sürüm kontrol hesabının temelleri, örneğin: Github. Bu blogda, Kaggle'ın Güney Afrika Kalp Hastalığı veri seti deneylerimizi yürütmek için kullanılacaktır. Hedef değişkenimiz KKH (koroner kalp hastalığı) olacaktır.

not: Hem DVC Studio hem de MLflow kullanım durumları için basitlik adına aynı veri setini kullanacağız ve aynı modeli oluşturacağız. Amacımız, hem araçların özelliklerini anlamak hem de model oluşturmada ince ayar yapmak değil.

DVC Stüdyosu

DVC, deneme ve izleme için ML projelerini içe aktarmak için Github, Gitlab, Bitbucket vb. gibi sürüm kontrol araçlarına takılabilen açık kaynaklı bir araç/kütüphanedir. Stüdyo, deneyleri/metrikleri izlemek için bir kullanıcı arayüzüne sahiptir. DVC hakkında daha fazla bilgi edinmek için Özellikler.

Kurulum ve kurulum: The pip kurulum dvc kurulum için iyi olmalıdır. Windows sürümünün kurulumu hakkında daha fazla bilgi için lütfen bkz. DVC'yi kurun. Hızlı başvuru için kodu Github'dan indirebilir/klonlayabilirsiniz. Kodu şuradan indirebilir/klonlayabilirsiniz: Github hızlı başvuru için.

Veri setini yükleyeceğiz, böleceğiz ve ardından model oluşturma adımını gerçekleştireceğiz. Tüm kodlar/dosyalar src klasörünün altında bulunabilir – blogu nispeten kısa tutmak için bu bölümün kod adımlarını atlayarak. Kodun tamamına ve izlenecek yollara şuradan erişebilirsiniz: blog.

Daha fazla ilerlemeden önce, denemenin ve KPI'ların DVC'de nasıl izlendiğine bir göz atalım.

MLO'lar için DVC stüdyosu — DVC'de deney izleme

Kaynak: Yazar

Yukarıda fark edeceğiniz gibi, çıktı konsolda, kesinlikle etkileşimli değil, peki ya ML modelleri için çok önemli olan grafikler? Sonuçları tanımlanmış bir eşik üzerinde filtrelemenin bir yolu var mı? örneğin: 0.7'den yüksek bir doğruluğa sahip deneyleri görüntülememiz gerekirse. Tek yol, bu belirli verileri filtrelemek için bir kod parçası yazmaktır. DVC stüdyosunun onu çok basit ve etkileşimli hale getirdiği yer burasıdır. Sonraki bölümlerde kullanıcı arayüzüne bakacağız.

DVC Stüdyosu: Aşağıdaki adımları izleyerek DVC stüdyosunu kurun.

1 Adım: URL'ye gidin https://studio.iterative.ai, Github'ınızla oturum açın ve görebileceksiniz Görünüm ekle Ekranın sağ üst kısmında.

2 Adım: Sahip olduğumuz GitHub deposu, üzerine tıklayarak DVC stüdyosuna eşlenmelidir. Git Entegrasyon Ayarlarını Yapılandırın.

3. Adım: 2. adım tamamlandığında Git Entegrasyonları bölümü açılacaktır. Depoyu seçin ve erişim sağlayın.

Git entegrasyonu bölümü | MLO'lar — Harita ve hibe ac

Kaynak: Yazar

4. Adım: Eşleştirildikten sonra, depo aşağıdaki gibi bir görünümün oluşturulması için uygun olacaktır.

Görünüm ekle | MLO'lar — DVC deposu için bir görünüm oluşturma

Kaynak: Yazar

5 Adım: Yukarıdaki adımlar tamamlandığında, depoya tıklayın ve izleyiciyi açın.

repo ve açık izci | MLO'lar — DVC stüdyo deney izleyici kullanıcı arayüzü

Kaynak: Yazar

Model Karşılaştırması: Dilediğiniz modelleri seçin ve tıklayın. Karşılaştırmak sonuçları görüntülemek için

Deneyleri çalıştırın: Deneyleri çalıştırmanın iki yolu vardır.

1. Tüm değişiklikleri yapın ve Github deposundaki kodu kontrol edin. DVC stüdyosu, izleme için stüdyodaki metrikleri otomatik olarak çeker.

2. Diğer yol ise DVC stüdyo kullanıcı arayüzünde değişiklik yapmak, deneyler yapmak ve ardından onu Github'a göndermektir.

ML akışı

MLflow, ML deneylerini izlemek için açık kaynaklı bir araçtır. DVC stüdyosuna benzer şekilde, işbirliğine yardımcı olur, çeşitli deneyler ve analizler gerçekleştirir. MLflow hakkında daha fazla bilgi edinmek için Özellikler.

Çalışma Ortamını Ayarlama:

İndirmek/klonlamak için kod deposuna şuradan erişebilirsiniz: Github. Model oluşturma için mlflow ve diğer kitaplıkları kurun, kodun okunabilirliğini artırmak için yapılandırma dosyasını ayarlayın. Dosyalar altında bulunabilir. ML akışı klasör.

Model Metriklerini İzleme: Son ve mevcut metrikler anlık görüntüde olduğu gibi izlenir ve listelenir. Yineleme sayısı artarsa, değişiklikleri takip etmek zorlu bir süreç haline gelir ve model performansını iyileştirmeye odaklanmak yerine, değişiklikleri ve ortaya çıkan metrikleri izlemek için çok zaman harcarız.

Yol Metriği Eski yeni Reportcores.json Lojistik Doğruluğunu Değiştirin 0.62069 0.65517 0.03448 Reportscores.json roc_auc 0.65093 0.72764 0.07671 Reportscores.json test_score 62.06897 65.51724 3.44828 Reportscores.json train_score 71.96532 74.27746 2.31214

MLflow bize güzel bir MLflow kullanıcı arayüzü bu da kullanıcı arayüzündeki her şeyi izlememize yardımcı olur. Bir kez, denememizi çalıştırmaya hazırız (sınıflandırma.py), metrikler aşağıdaki kod parçasıyla kullanıcı arayüzünde izlenir ve görüntülenir.

mlflow ui## İşte çıktı INFO:garson:Serving on http://127.0.0.1:5000

URL, yerel ana bilgisayara aittir, URL'ye tıklayarak sonuçları kullanıcı arayüzünde görebiliriz. Kullanıcı arayüzü çok kullanıcı dostudur ve ilgili metriklerde kolayca gezinebilir ve keşfedebilirsiniz. Aşağıdaki kırmızı kutuda vurgulanan bölüm, ilgilendiğimiz metriklerin takibini gösterir.

MLflow deneme izleyici arayüzü

Kaynak: Yazar

Kapanış Notu

Bu blogda, MLOps'a genel bir bakış attık ve bunu açık kaynak araçlarıyla uyguladık. DVC Stüdyosu ve ML akışı. Bu MLOps araçları, etki alanına özgü ayarlama ve model performansına daha fazla odaklanabilmemiz için değişiklikleri izlemeyi ve model performansını sorunsuz hale getirir.

MLO'lar, makine öğrenimi projelerinin operasyonel tarafını yönetmede veri bilimi ekiplerinin hayatlarını çok daha kolay hale getiren araçlara eklenen daha fazla özellik ile gelecekte gelişmeye devam edecek.

Blogu beğendiyseniz, işte MLOps ile ilgili makaleler. Denemeye devam edin!

DevOps ve MLop'lar

DVC ile ML deneylerini izleme

My Linkedin & Github