Zephyrnet Logosu

AWS SageMaker'ın yeni özelliklerini keşfedin - Clarify, Pipelines, Feature Store

Tarih:


AWS SageMaker'daki iki bölümlü serimizin 2. bölümüne hoş geldiniz. Eğer okumadıysanız parçası 1, atla ve önce bunu yap. Aksi takdirde, hemen konuya dalalım ve bazı önemli yeni SageMaker özelliklerine bakalım:

  • açıklamak"ML modellerinde önyargıyı tespit ettiğini" ve modelin yorumlanabilirliğine yardımcı olduğunu iddia eden
  • SageMaker Boru HatlarıML ardışık düzenlerinin akışını otomatikleştirmeye ve düzenlemeye yardımcı olan
  • Özellik MağazasıML iş akışlarına yönelik amaca yönelik olarak oluşturulmuş özellikleri depolamaya, almaya, düzenlemeye ve paylaşmaya yönelik bir araç.

Açıklığa kavuşturun: Yapay zekanın önyargılarını ortadan kaldırmak için insan unsuruna ihtiyaç var

Aralık ayındaki AWS re:Invent etkinliğinde, Swami Sivasubramanian, Clarify'ı "uçtan uca makine öğrenimi iş akışında önyargı tespiti" aracı olarak tanıttı coşkulu alkışlar ve ıslıklar eşliğinde. AWS ML'de önyargı ve adalet ilkesiyle çalışan Uygulamalı Bilimler Müdürü Nashlie Sephus'u tanıttı. Sephus'un açıkça belirttiği gibi önyargı, ML iş akışının herhangi bir aşamasında ortaya çıkabilir: veri toplama, veri etiketleme ve seçme ve dağıtıldığında (örneğin model sapması).

Clarify'ın kapsamı çok geniştir; şunları yapabileceğini iddia ediyor:

  • Keşif amaçlı veri analizi sırasında önyargı analizi gerçekleştirin
  • Eğitimden sonra önyargı ve açıklanabilirlik analizi yapmak
  • Üretimdeki modeller için bireysel çıkarımları açıklamak (model devreye alındıktan sonra)
  • ile bütünleşmek Model Monitörü Model(ler)inize yayılan önyargıyla ilgili gerçek zamanlı uyarılar sağlamak.

Clarify, nispeten kullanıcı dostu bir arayüz ve uygun bir API ile yukarıdakilerin her biri için bir dizi yararlı teşhis sağlar, ancak yukarıdaki iddialar tamamen abartılmıştır. Buradaki zorluk, algoritmik önyargının sınıf dengesizliği ve pozitif tahmin değeri gibi ölçümlere nadiren indirgenebilmesidir. Bu tür metriklere ilişkin öngörü sağlayan bir ürüne sahip olmak değerlidir, ancak gerçek şu ki bunlar masadaki risklerin altındadır. En iyi ihtimalle, SageMaker'ın Clarify'ın makine öğrenimi iş akışının tamamında önyargı tespit ettiğini iddia etmesi, pazarlama ile gerçek değer yaratma arasındaki boşluğun bir yansımasıdır.

Açık olmak gerekirse, algoritmik önyargı çağımızın en büyük zorluklarından biri: Büyük ölçekte hesaplamaya dayalı önyargı hikayeleri artık o kadar yaygın ki, Amazon'un kendisi de şaşırtıcı değil "kadınlara karşı önyargı gösteren gizli bir işe alma aracını hurdaya çıkarıyor.Algoritmik önyargının makine öğrenimi ardışık düzenlerine nasıl girebileceğini ilk elden deneyimlemek için eğitici oyuna göz atın En İyi Uyumun Hayatta Kalması.

Algoritmik önyargıyı ve adaleti bir dizi ölçüte indirgemek yalnızca indirgeyici değil aynı zamanda tehlikelidir. Modellerin uygulanmasında gerekli alan uzmanlığını ve kilit paydaşların (alan uzmanları veya geleneksel olarak dışlanmış toplulukların üyeleri) dahil edilmesini içermemektedir. Aynı zamanda önyargı ve adaletin gerçekte ne olduğu konusundaki önemli konuşmalara da girmiyor; ve çoğunlukla özet istatistiklere kolayca indirgenemezler.

Bu konular etrafında geniş ve giderek büyüyen bir literatür bulunmaktadır. 21 adalet tanımı ve politikaları (Narayanan), Algoritmik Adalet: Seçimler, Varsayımlar ve Tanımlar (Mitchell ve diğerleri) ve Risk Puanlarının Tespit Edilmesinde Fuarın Doğal Değişimi (Kleingberg ve diğerleri), sonuncusu algoritmik adaletin temelde asla aynı anda karşılanamayacak üç farklı tanımının olduğunu gösteriyor.

Ayrıca ufuk açıcı bir çalışma da var Timnit Gebrü, Joy Buolamwini ve diğerleri (örneğin Cinsiyet Tonları), bu da algoritmik önyargının yalnızca eğitim verileri ve ölçümlerle ilgili bir sorun olmadığı gerçeğini dile getiriyor. Dr. Gebru'nun sözleriyle: “Adillik yalnızca veri kümeleriyle ilgili değildir ve yalnızca matematikle de ilgili değildir. Adil olmak aynı zamanda toplumla da ilgilidir ve mühendisler ve bilim insanları olarak bu gerçekten uzak duramayız.”

Adil olmak gerekirse, Clarify'ın belgeleme son kullanıcılar ve topluluklar da dahil olmak üzere paydaşlar arasında fikir birliği oluşturmanın ve işbirliğinin adil modeller oluşturmanın bir parçası olduğunu açıkça ortaya koyuyor. Ayrıca müşterilerin "ML yaşam döngüsünün her aşamasında adaleti ve açıklanabilirliği dikkate alması gerektiğini" belirtiyor: problem oluşturma, veri kümesi oluşturma, algoritma seçimi, model eğitim süreci, test süreci, dağıtım ve izleme/geri bildirim. Bu analizi yapmak için doğru araçlara sahip olmak önemlidir.”

Ne yazık ki, "Clarify, makine öğrenimi iş akışında önyargı tespiti sağlıyor" gibi ifadeler, çözümün bir düğme gibi görünmesine neden oluyor: sanki Clarify için AWS'ye ödeme yapıyormuşsunuz ve modelleriniz tarafsız olacakmış gibi. Amazon'dan Sephus, sunumunda önyargıların ortadan kaldırılmasının çok daha fazlasını gerektireceğini açıkça anlıyor ve ifade ediyor, ancak bu tür incelikler çoğu şirket yöneticisinin gözünden kaçacak.

Temel çıkarım, Clarify'ın uygun bir arayüzde bazı yararlı teşhisler sağlamasıdır, ancak alıcı dikkatli olsun! Bu hiçbir şekilde algoritmik önyargıya bir çözüm değildir.

Boru hatları: doğru sorun ama karmaşık bir yaklaşım

SageMaker Boru Hatları (Video öğretici, basın bülteni). Bu aracın "makine öğrenimi için ilk CI/CD hizmeti" olduğu iddia ediliyor. ML iş akışlarını otomatik olarak çalıştırmayı vaat ediyor ve eğitimin düzenlenmesine yardımcı oluyor. Makine öğrenimi işlem hatları genellikle birden fazla adım gerektirir (ör. veri çıkarma, dönüştürme, yükleme, temizleme, veri tekilleştirme, eğitim, doğrulama, model yükleme vb.) ve İşlem Hatları bunları bir araya getirme ve veri bilimcilerin bu iş yüklerini AWS'de çalıştırmalarına yardımcı olma girişimidir.

Peki ne kadar iyi çalışıyor? Birincisi, kod tabanlıdır ve büyük ölçüde geliştirilir. AWS CodePipelinesBunlar işaretle ve tıkla tabanlı. Bu açıkça doğru yönde bir harekettir. Konfigürasyon geleneksel olarak sürekli değişen bir web konsolu üzerinde düzinelerce konsol konfigürasyonunun değiştirilmesinden ibaretti; bu yavaş, sinir bozucu ve tekrarlanamaz bir durumdu. İşaretle ve tıkla tekrarlanabilirliğin antitezidir. İşlem hatlarınızın kod halinde olması, işlem hatlarınızı paylaşmanızı ve düzenlemenizi kolaylaştırır. SageMaker Pipelines, hesaplama kaynaklarını kod olarak yapılandırma konusunda güçlü bir geleneği takip ediyor (en iyi bilinen örnekler Kubernetes or Şef).

Sabit bir API aracılığıyla kaynak kontrollü kodda yapılandırmaların belirtilmesi, sektörün hareket ettiği noktadır.

İkincisi, SageMaker Pipelines Python'da yazılmıştır ve dinamik bir programlama dilinin tüm gücüne sahiptir. Mevcut genel amaçlı CI/CD çözümlerinin çoğu Github Eylemleri, Çember CIya da Azure Ardışık Düzenleri statik YAML dosyalarını kullanın. Bu, Pipelines'ın daha güçlü olduğu anlamına gelir. Ve (başka bir programlama dili yerine) Python'un seçimi akıllıcaydı. Veri bilimi için baskın programlama dilidir ve muhtemelen en fazla ilgi gören dildir (ikinci en popüler dil olan R, muhtemelen sistem çalışması için pek uygun değildir ve veri geliştirici olmayanların çoğuna yabancıdır).

Ancak aracın benimsenmesi sorunsuz olmayacak. Resmi eğitim konsol yapılandırmalarını değiştirerek IAM izinlerinin doğru şekilde ayarlanmasını gerektirir ve kullanıcıların okumasını gerektirir iki diğer Öğreticiler Bunu başarmak için IAM izinlerine bakın. Terminoloji gerçek konsolla tutarsız görünüyor ("satır içi politika ekleme" ve "ilke ekleme" veya "güven politikası" ve "güven ilişkisi"). Bu tür küçük değişiklikler, bulut sunucu yönetimi konusunda uzman olmayanlar için (örneğin, SageMaker Pipelines'ın hedef kitlesi için) oldukça itici olabilir. AWS'nin sunduğu çok sayıda hizmet göz önüne alındığında, eski ve tutarsız belgeler AWS için zorlu bir sorundur.

Araç ayrıca oldukça dik bir öğrenme eğrisine sahiptir. Resmi eğitimde kullanıcıların bir veri kümesi indirmesi, bunu eğitim ve doğrulama kümelerine ayırması ve sonuçları AWS model kaydı. Ne yazık ki, 10 adım ve 300 satırlık dev-ops kodu gerekiyor (evet, saydık). Buna makine öğrenimi eğitimi ve veri hazırlığına ilişkin gerçek kod dahil değildir. Dik öğrenme eğrisi, özellikle Github Actions gibi çok daha basit (genel amaçlı) CI/CD çözümleriyle karşılaştırıldığında, benimsenme konusunda zorluk yaratabilir.

Bu kesinlikle adil bir karşılaştırma değildir ve (daha önce de belirtildiği gibi) SageMaker Pipelines daha güçlüdür: Tam bir programlama dili kullanır ve çok daha fazlasını yapabilir. Bununla birlikte, uygulamada CI/CD genellikle yalnızca bir işlem hattının ne zaman çalıştırıldığını tanımlamak için kullanılır (örneğin, kod gönderme sırasında veya düzenli aralıklarla). Daha sonra bir görev çalıştırıcısını çağırır (örneğin, yudum or pyinvoke her ikisinin de öğrenilmesi çok daha kolaydır; pyinvoke'un öğreticisi 19 satırdır), bu da bir programlama dilinin tüm gücünü sunar. AWS hizmetine, yaygın olarak kullanılan boto3 gibi ilgili dil SDK'ları aracılığıyla bağlanabiliyoruz. Aslında birimiz haftalık bilgi toplamak için Github Actions CI/CD'yi kullandı (kötüye mi kullanıldı?) 2020 seçimleri öncesinde düzinelerce eyaletteki postayla oylama kayıt verileri ve En son Wikipedia dökümlerinden aylık basit dil modelleri oluşturun. Dolayısıyla soru, SageMaker Pipelines gibi hepsi bir arada bir aracın, eğer yaygın olarak kullanılan araçları bir araya getirerek çoğaltılabilirse, öğrenmeye değer olup olmadığıdır. Bu durum, SageMaker Pipelines'ın entegre bir çözümün doğal gücü açısından zayıf olması (farklı araçlar arasında güvenlik izinleriyle mücadele etmek zorunda kalmaması) ile birleşiyor.

AWS doğru sorun üzerinde çalışıyor. Ancak zorlu öğrenme eğrisi göz önüne alındığında, SageMaker Pipelines'ın insanları kullandıkları daha basit mevcut araçlardan değiştirmeye ikna etmek için yeterli olup olmayacağı belli değil. Bu değiş tokuş daha geniş bir tartışmaya işaret ediyor: Şirketler hepsi bir arada ürün grubunu benimsemeli mi yoksa türünün en iyisi ürünleri mi kullanmalı? Bu soru hakkında daha fazla bilgi yakında.

Özellik Mağazası: kurumsal için çok ihtiyaç duyulan bir özellik

Sivasubramanian'ın re:Invent açılış konuşmasında belirttiği gibi, "özellikler, yüksek kaliteli modeller.” SageMaker Özellik Mağazası, düşük gecikme süresiyle eğitim ve çıkarım için makine öğrenimi özelliklerinin oluşturulması, paylaşılması ve alınması için bir depo sağlar.

Bu heyecan verici çünkü Uber'in ML platformunda olduğu gibi çeşitli kuruluşlarda ve sektörlerde çok uzun süredir bir arada tutulan ML iş akışının birçok önemli yönünden biri. Michelangelo (özellik mağazasının adı Michelangelo Paleti). Veri biliminin demokratikleşmesinin büyük bir kısmı ve Veri araçlarının kullanılması, bu tür araçların standartlaştırılmasını ve veri profesyonelleri için daha erişilebilir hale getirilmesini gerektirecektir. Bu hareket devam ediyor: Bazı etkileyici örnekler için Airbnb'nin açık kaynak kullanımına bakın. Hava akışıML izleme platformlarının ortaya çıkışıyla birlikte veri iş akışı yönetim aracı Ağırlıklar ve Eğilimler, Neptün Yapay Zeka, ve Kuyruklu yıldız ML. Databricks'in MLFlow'u gibi daha büyük platformlar, ML yaşam döngüsünün tüm yönlerini yakalamaya çalışıyor.

Çoğu büyük teknoloji şirketinin kendi dahili özellik mağazaları vardır; özellik depolarına sahip olmayan kuruluşlar ise çok sayıda mükerrer iş ile karşı karşıya kalır. Datatron'un kurucu ortağı ve CEO'su Harish Doddi'nin birkaç yıl önce söylediği gibi O'Reilly Veri Gösterisi Podcast'i: “Bugünlerde şirketlerle konuştuğumda herkes, veri bilimcilerinin merkezi bir özellik deposuna sahip olmadıkları için işlerini kopyaladıklarını biliyor. Konuştuğum herkes, kendileri için en kolay olana bağlı olarak gerçekten bir özellik mağazası kurmak, hatta satın almak istiyor."

Sorun alanını anlamak için, birçoğu rekabet ortamı tablosunda özetlenen büyüyen çözüm dizisinden başka bir yere bakmayın. ÖzellikStore.org:

SageMaker Özellik Mağazası ümit vericidir. Göreceli olarak Pythonic bir API kullanarak özellik grupları oluşturma ve en sevdiğiniz PyData paketlerine (Pandas ve NumPy gibi) erişme olanağına bir Jupyter dizüstü bilgisayar rahatlığından sahip olabilirsiniz. Özellik oluşturulduktan sonra sonuçları özellik grubunda depolamak kolaydır ve hatta alma sürecini kolayca paralelleştirmenize olanak tanıyan bir max_workers anahtar kelime argümanı bile vardır. Özelliklerinizi hem çevrimdışı hem de çevrimiçi bir mağazada saklayabilirsiniz. İkincisi, bir özelliğin en son değerlerine düşük gecikmeli erişim sağlar.

Özellik Mağazası temel kullanım durumları için iyi görünüyor. Endüstriyel uygulamalarda üretim kullanımına hazır olup olmadığını belirleyemedik ancak bu yeteneklere ihtiyaç duyan herkes, SageMaker'ı zaten kullanıyorsanız veya iş akışınıza dahil etmeyi düşünüyorsanız bunu kontrol etmelidir.

Nihai düşünceler

Son olarak, SageMaker gibi hepsi bir arada platformların, en yeni ve son teknoloji araçlara erişmeye ihtiyaç duyan modern veri bilimcilerinin tüm ihtiyaçlarını karşılayıp karşılayamayacağı sorusuna geliyoruz.

Hepsi bir arada platformlar ile türünün en iyisi takımlar arasında bir denge vardır. Hepsi bir arada platformlar, performansı hızlandıracak çözümleri bir arada bulabildikleri için caziptir. Aynı zamanda farklı araçları da sorunsuz bir şekilde entegre edebilirler (her ne kadar yukarıda gördüğümüz gibi bu vaadi her zaman yerine getiremeseler de). İzinlerin, güvenliğin ve uyumluluğun kullanıcı müdahalesi olmadan sistem tarafından sorunsuz bir şekilde yönetildiği bir dünya hayal edin. Türünün en iyisi takımlar, iş akışının bireysel adımlarını daha iyi çözebilir ancak bir araya getirilmesi için biraz çalışma yapılması gerekir. Bizden biri daha önce türünün en iyisi araçların veri bilimcileri için daha iyi olduğunu savundu. Jüri hala dışarıda. Veri bilimi arenası, destek araçlarıyla dolup taşmaktadır ve hangi hizmetin (veya bunların kombinasyonunun) en etkili veri ortamını sağladığını bulmak, teknik topluluğu uzun süre meşgul edecektir.

Tianhui Michael Li başkandır Pragmatik Enstitüsü ve kurucusu ve başkanı Veri İnkübatörü, bir veri bilimi eğitim ve yerleştirme firması. Daha önce Foursquare'de para kazanma veri bilimine başkanlık etti ve Google, Andreessen Horowitz, JP Morgan ve DE Shaw'da çalıştı.

Hugo Bowne-Anderson Veri Bilimi Evangelizmi Başkanı ve Pazarlamadan Sorumlu Başkan Yardımcısıdır. Sarmal. Daha önce veri bilimci olarak çalışıyordu. DataCampYale Üniversitesi'nde ve Cold Spring Harbor Laboratuvarı'nda, SciPy, PyCon ve ODSC gibi konferanslarda ve Data Carpentry gibi kuruluşlarda veri bilimi konularını öğretti. [Tam Açıklama: Coiled, hizmetlerinin bir parçası olarak, veri bilimcileri için Python kodunu ölçeklendirmek amacıyla bulut kaynaklarını tedarik edip yönetiyor ve SageMaker'ın da hizmetlerinin bir parçası olarak yaptığı bir şeyi sunuyor. Ancak SageMaker gibi hepsi bir arada platformların ve Coiled gibi ürünlerin tamamlayıcı olarak görülebileceği de doğrudur: Coiled'in, Coiled ile birlikte SageMaker Studio'yu kullanan birçok müşterisi vardır.] 

Deneyimli bir veri veya yapay zeka uygulayıcısıysanız uzmanlığınızı bir platform aracılığıyla toplulukla paylaşmayı düşünün. konuk sonrası VentureBeat için.

VentureBeat

VentureBeat'in misyonu, teknik karar vericilerin dönüştürücü teknoloji ve işlem hakkında bilgi edinmesi için dijital bir şehir meydanı olmaktır. Sitemiz, kuruluşlarınıza liderlik ederken size rehberlik edecek veri teknolojileri ve stratejiler hakkında önemli bilgiler sunar. Sizi topluluğumuzun bir üyesi olmaya, erişmeniz için davet ediyoruz:

  • ilgilendiğiniz konular hakkında güncel bilgiler
  • bültenlerimiz
  • kapılı düşünce lideri içeriği ve Transform gibi değerli etkinliklerimize indirimli erişim
  • ağ özellikleri ve daha fazlası

Üye ol

Kaynak: https://venturebeat.com/2021/02/14/exploring-aws-sagemakers-new-features-clarify-pipelines-feature-store/

spot_img

En Son İstihbarat

spot_img

Bizimle sohbet

Merhaba! Size nasıl yardım edebilirim?