Onderzoek naar de nieuwe functies van AWS SageMaker — Clarify, Pipelines, Feature Store

Welkom bij deel 2 van onze tweedelige serie over AWS SageMaker. Als je niet hebt gelezen deel 1, spring erover en doe dat eerst. Laten we anders eens kijken naar enkele belangrijke nieuwe SageMaker-functies:

Verduidelijken, die beweert "bias in ML-modellen te detecteren" en te helpen bij de interpreteerbaarheid van modellen
SageMaker-pijpleidingen, die helpen bij het automatiseren en organiseren van de stroom ML-pijplijnen
Functie winkel, een tool voor het opslaan, ophalen, bewerken en delen van speciaal gebouwde functies voor ML-workflows.

Verduidelijken: het ontkrachten van AI heeft een menselijk element nodig

Op het AWS re: Invent-evenement in december, Swami Sivasubramanian introduceerde Clarify als de tool voor "bias-detectie in de end-to-end machine learning-workflow" onder luid applaus en gefluit. Hij introduceerde Nashlie Sephus, Applied Science Manager bij AWS ML, die werkt vanuit vooringenomenheid en eerlijkheid. Zoals Sephus duidelijk maakt, kan vooringenomenheid in elk stadium van de ML-workflow optreden: bij het verzamelen van gegevens, het labelen en selecteren van gegevens en bij implementatie (bijvoorbeeld modelafwijking).

De mogelijkheden voor Clarify zijn enorm; het beweert te kunnen:

bias-analyse uitvoeren tijdens verkennende data-analyse
analyse van vertekening en uitlegbaarheid uitvoeren na de training
individuele gevolgtrekkingen uitleggen voor modellen in productie (zodra het model is geïmplementeerd)
Integreren met Modelmonitor om real-time waarschuwingen te geven met betrekking tot vertekening die in uw model (len) sluipt.

Clarify biedt wel een reeks nuttige diagnoses voor elk van de bovenstaande in een relatief gebruiksvriendelijke interface en met een handige API, maar de bovenstaande beweringen zijn volledig overdreven. De uitdaging is dat algoritmische bias zelden of nooit kan worden herleid tot statistieken zoals klassenonbalans en positief voorspellende waarde. Het is waardevol om een product te hebben dat inzicht geeft in dergelijke statistieken, maar de waarheid is dat ze onder de inzet staan. In het beste geval is SageMaker die beweert dat Clarify vertekening detecteert in de gehele ML-workflow, een weerspiegeling van de kloof tussen marketing en daadwerkelijke waardecreatie.

Voor alle duidelijkheid: algoritmische bias is een van de grote uitdagingen van onze tijd: verhalen over computationele bias op schaal zijn nu zo gewoon dat het niet verrassend is dat Amazon zelf "schrapt een geheim rekruteringsinstrument dat vooringenomenheid tegen vrouwen toonde."Om uit de eerste hand te ervaren hoe algoritmische bias ML-pijplijnen kan binnendringen, bekijk het instructiespel Overleven van de beste pasvorm.

Het terugbrengen van algoritmische vooringenomenheid en eerlijkheid tot een reeks metrieken is niet alleen beperkend, maar ook gevaarlijk. Het omvat niet de vereiste domeinexpertise en de inclusie van de belangrijkste belanghebbenden (of het nu domeinexperts zijn of leden van traditioneel gemarginaliseerde gemeenschappen) bij de implementatie van modellen. Het voert ook geen belangrijke gesprekken over wat vooringenomenheid en eerlijkheid eigenlijk zijn; en voor het grootste deel zijn ze niet gemakkelijk te herleiden tot samenvattende statistieken.

Er is een enorme en groeiende hoeveelheid literatuur over deze kwesties, waaronder 21 rechtvaardigheidsdefinities en hun politiek (Narayanan), Algoritmische rechtvaardigheid: keuzes, veronderstellingen en definities (Mitchell et al.), En Inherente afwegingen bij de eerlijke bepaling van risicoscores (Kleingberg et al.), Waarvan de laatste laat zien dat er drie verschillende definities zijn van algoritmische rechtvaardigheid waaraan in principe nooit tegelijkertijd kan worden voldaan.

Er is ook het baanbrekende werk van Timnit Gebru, Joy Buolamwini, en vele anderen (zoals Geslacht Shades), waaruit blijkt dat algoritmische bias niet alleen een kwestie is van trainingsgegevens en meetgegevens. In de woorden van Dr. Gebru: “Eerlijkheid gaat niet alleen over datasets, en het gaat niet alleen over wiskunde. Eerlijkheid gaat ook over de samenleving, en als ingenieurs, als wetenschappers, kunnen we daar niet echt voor terugdeinzen. "

Om eerlijk te zijn, Clarify's documentatie maakt duidelijk dat consensusvorming en samenwerking tussen belanghebbenden - inclusief eindgebruikers en gemeenschappen - deel uitmaken van het bouwen van eerlijke modellen. Het stelt ook dat klanten “rekening moeten houden met eerlijkheid en uitlegbaarheid tijdens elke fase van de ML-levenscyclus: probleemvorming, datasetconstructie, algoritmeselectie, modeltraining, testproces, implementatie en monitoring / feedback. Het is belangrijk om over de juiste tools te beschikken om deze analyse uit te voeren. "

Helaas laten uitspraken als "Clarify bias-detectie in de machine learning-workflow" de oplossing klinken als een druk op de knop: alsof u gewoon AWS betaalt voor Clarify en uw modellen onbevooroordeeld zijn. Hoewel Amazons Sephus duidelijk begrijpt en verwoordt dat debiasing veel meer vereist in haar presentatie, zal die nuance verloren gaan bij de meeste bedrijfsleiders.

De belangrijkste afweging is dat Clarify een aantal nuttige diagnoses biedt in een handige interface, maar pas op voor de koper! Dit is geenszins een oplossing voor algoritmische bias.

Pijpleidingen: goed probleem maar een complexe aanpak

SageMaker-pijpleidingen (video tutorial, persbericht Deze tool beweert de "eerste CI / CD-service voor machine learning" te zijn. Het belooft automatisch ML-workflows uit te voeren en helpt bij het organiseren van trainingen. Machine learning-pijplijnen vereisen vaak meerdere stappen (bijv. Gegevensextractie, transformatie, laden, opschonen, ontdubbelen, training, validatie, modelupload, enz.), En Pipelines is een poging om deze aan elkaar te lijmen en datawetenschappers te helpen deze workloads op AWS uit te voeren.

Dus hoe goed doet het? Ten eerste is het op code gebaseerd en verbetert het aanzienlijk AWS-codepijplijnen, dat waren point-and-click gebaseerd Dit is duidelijk een stap in de goede richting. Configuratie was traditioneel een kwestie van tientallen consoleconfiguraties omschakelen op een steeds veranderende webconsole, wat traag, frustrerend en in hoge mate niet-reproduceerbaar was. Aanwijzen en klikken is de antithese van reproduceerbaarheid. Door uw pijplijnen in code te hebben, kunt u uw pijplijnen gemakkelijker delen en bewerken. SageMaker Pipelines volgt in een sterke traditie van het configureren van computationele bronnen als code (de bekendste voorbeelden zijn Kubernetes or Chef).

Het specificeren van configuraties in brongestuurde code via een stabiele API is waar de industrie zich in beweegt.

Ten tweede zijn SageMaker Pipelines geschreven in Python en hebben ze de volledige kracht van een dynamische programmeertaal. De meeste bestaande CI / CD-oplossingen voor algemene doeleinden, zoals Github-acties, Cirkel CIof Azure-pijplijnen gebruik statische YAML-bestanden. Dit betekent dat Pipelines krachtiger is. En de keuze voor Python (in plaats van een andere programmeertaal) was slim. Het is de overheersende programmeertaal voor data science en heeft waarschijnlijk de meeste grip (R, de op een na populairste taal, is waarschijnlijk niet goed geschikt voor systeemwerk en is onbekend bij de meeste niet-data-ontwikkelaars).

De acceptatie van de tool zal echter niet soepel verlopen. De officiële tutorial vereist het correct instellen van IAM-machtigingen door consoleconfiguraties om te schakelen en vereist dat gebruikers lezen twee anders tutorials op IAM-machtigingen om dit te bereiken. De terminologie lijkt inconsistent met de daadwerkelijke console ("voeg inline-beleid toe" vs. "bijvoegbeleid" of "vertrouwensbeleid" vs. "vertrouwensrelatie"). Zulke kleine variaties kunnen erg onaangenaam zijn voor degenen die geen expert zijn in cloud serverbeheer - bijvoorbeeld de doelgroep voor SageMaker Pipelines. Verouderde en inconsistente documentatie is een groot probleem voor AWS, gezien het grote aantal services dat AWS biedt.

De tool heeft ook een behoorlijk steile leercurve. De officiële tutorial laat gebruikers een dataset downloaden, deze opsplitsen in trainings- en validatiesets en de resultaten uploaden naar het AWS-modelregister Helaas zijn er 10 stappen en 300 regels dev-ops-code voor nodig (ja, we hebben geteld). Dat is exclusief de feitelijke code voor ML-training en datavoorbereiding. De steile leercurve kan een uitdaging zijn voor acceptatie, vooral in vergelijking met radicaal eenvoudigere (algemene) CI / CD-oplossingen zoals Github Actions.

Dit is niet echt een eerlijke vergelijking en (zoals eerder vermeld) SageMaker Pipelines is krachtiger: het gebruikt een volledige programmeertaal en kan veel meer. In de praktijk wordt CI / CD echter vaak alleen gebruikt om te definiëren wanneer een pijplijn wordt uitgevoerd (bijvoorbeeld bij codepush of met een regelmatig interval). Het roept vervolgens een taakrunner aan (bijv. slok or pyaanroepen zijn beide veel gemakkelijker te leren; pyinvoke's tutorial is 19 regels), wat de volledige kracht van een programmeertaal biedt. We konden verbinding maken met de AWS-service via hun respectieve taal-SDK's, zoals de veelgebruikte boto3. Inderdaad, een van ons gebruikte (misbruikte?) Github Actions CI / CD om wekelijks te verzamelen stem-per-mail aanmeldgegevens in tientallen staten in de aanloop naar de verkiezingen van 2020 en bouw maandelijkse eenvoudige taalmodellen van de nieuwste Wikipedia-dumps De vraag is dus of een alles-in-één tool zoals SageMaker Pipelines de moeite waard is om te leren, als het kan worden gerepliceerd door veelgebruikte tools aan elkaar te naaien. Dit wordt nog verergerd doordat SageMaker Pipelines zwak is vanwege de natuurlijke kracht van een geïntegreerde oplossing (niet hoeven te vechten met beveiligingsrechten tussen verschillende tools).

AWS werkt aan het juiste probleem. Maar gezien de steile leercurve, is het onduidelijk of SageMaker Pipelines voldoende zal zijn om mensen te overtuigen om over te stappen van de eenvoudigere bestaande tools die ze gewend zijn te gebruiken. Deze afweging wijst op een breder debat: moeten bedrijven een alles-in-één stapel omarmen of de beste producten gebruiken? Binnenkort meer over die vraag.

Feature Store: een broodnodige functie voor de onderneming

Zoals Sivasubramanian zei in zijn re: Invent keynote, “zijn kenmerken de basis van hoogwaardige modellen.”SageMaker Feature Store biedt een opslagplaats voor het maken, delen en ophalen van machine learning-functies voor training en gevolgtrekking met een lage latentie.

Dit is opwindend omdat het een van de vele belangrijke aspecten is van de ML-workflow die te lang in een groot aantal ondernemingen en branches is blijven liggen, zoals in het ML-platform van Uber. Michelangelo (de feature store heet Michelangelo-palet Een groot deel van de democratisering van data science en datatooling vereist dat dergelijke tools worden gestandaardiseerd en toegankelijker worden gemaakt voor dataprofessionals. Deze beweging is aan de gang: voor enkele boeiende voorbeelden, zie Airbnb's open-sourcing van Luchtstroom, de tool voor het beheren van gegevensworkflows, samen met de opkomst van ML-trackingplatforms, zoals Gewichten en afwijkingen, Neptunus AI en Komeet ML Grotere platforms, zoals de MLFlow van Databricks, proberen alle aspecten van de ML-levenscyclus vast te leggen.

De meeste grote technologiebedrijven hebben hun interne feature stores; en organisaties die geen feature stores hebben, krijgen uiteindelijk veel dubbel werk. Zoals Harish Doddi, mede-oprichter en CEO van Datatron nu enkele jaren geleden zei de O'Reilly Data Show Podcast: “Als ik tegenwoordig met bedrijven praat, weet iedereen dat hun datawetenschappers dubbel werk doen omdat ze geen gecentraliseerde feature store hebben. Iedereen met wie ik praat, wil echt een winkel met speciale artikelen bouwen of zelfs kopen, afhankelijk van wat voor hen het gemakkelijkst is. "

Om een idee te krijgen van de probleemruimte, hoeft u niet verder te zoeken dan de groeiende reeks oplossingen, waarvan er verschillende zijn ingekapseld in een concurrerende landschapstabel op FeatureStore.org:

De SageMaker Feature Store is veelbelovend. Je hebt de mogelijkheid om functiegroepen te maken met behulp van een relatief Pythonische API en toegang tot je favoriete PyData-pakketten (zoals Panda's en NumPy), allemaal vanuit het comfort van een Jupyter-notebook. Nadat de functie is gemaakt, is het eenvoudig om resultaten op te slaan in de functiegroep, en er is zelfs een max_workers-trefwoordargument waarmee u het opnameproces eenvoudig kunt parallel schakelen. U kunt uw functies zowel offline als in een online winkel opslaan. Dit laatste maakt toegang met lage latentie tot de nieuwste waarden voor een functie mogelijk.

De Feature Store ziet er goed uit voor basisgebruik. We konden niet bepalen of het klaar is voor productiegebruik met industriële toepassingen, maar iedereen die deze mogelijkheden nodig heeft, zou het moeten bekijken als u SageMaker al gebruikt of overweegt om het in uw workflow op te nemen.

Laatste gedachten

Ten slotte komen we bij de vraag of alles-in-één platforms, zoals SageMaker, kunnen voldoen aan alle behoeften van moderne datawetenschappers, die toegang nodig hebben tot de nieuwste, geavanceerde tools.

Er is een afweging tussen alles-in-één platforms en de beste tools. Alles-in-één-platforms zijn aantrekkelijk omdat ze oplossingen kunnen co-lokaliseren om de prestaties te versnellen. Ze kunnen ook naadloos anderszins ongelijksoortige tools integreren (hoewel ze, zoals we hierboven hebben gezien, die belofte niet altijd waarmaken). Stel je een wereld voor waarin machtigingen, beveiliging en compatibiliteit allemaal naadloos door het systeem worden afgehandeld zonder tussenkomst van de gebruiker. Best-of-breed tooling kan individuele stappen van de workflow beter oplossen, maar vereist wat werk om aan elkaar te naaien. Een van ons heeft eerder betoogd dat de beste tools beter zijn voor datawetenschappers De jury is nog niet bekend. De data science-arena explodeert met ondersteunende tools, en uitzoeken welke service (of combinatie daarvan) zorgt voor de meest effectieve data-omgeving, zal de technische gemeenschap lange tijd bezig houden.

Tianhui Michael Li is president bij Pragmatisch Instituut en de oprichter en voorzitter van De gegevensincubator, een data science opleidings- en stagebedrijf. Eerder was hij hoofd van datawetenschap voor het genereren van inkomsten bij Foursquare en heeft hij gewerkt bij Google, Andreessen Horowitz, JP Morgan en DE Shaw.

Hugo Bowne-Anderson is Head of Data Science Evangelism en VP of Marketing bij Opgerold Eerder was hij data scientist bij DataCamp, en heeft data science-onderwerpen gedoceerd aan Yale University en Cold Spring Harbor Laboratory, conferenties zoals SciPy, PyCon en ODSC, en met organisaties zoals Data Carpentry. [Full Disclosure: Als onderdeel van zijn services levert en beheert Coiled cloudresources om Python-code voor datawetenschappers te schalen, en biedt het ook iets dat SageMaker ook doet als onderdeel van zijn services. Maar het is ook waar dat alles-één-platforms zoals SageMaker en producten zoals Coiled als complementair kunnen worden beschouwd: Coiled heeft verschillende klanten die naast Coiled ook SageMaker Studio gebruiken.]

Als u een ervaren data- of AI-beoefenaar bent, overweeg dan om uw expertise met de gemeenschap te delen via een gast post voor VentureBeat.

VentureBeat

De missie van VentureBeat is om een digitaal stadsplein te zijn voor technische besluitvormers om kennis op te doen over transformatieve technologie en transacties. Onze site biedt essentiële informatie over datatechnologieën en strategieën om u te begeleiden bij het leiden van uw organisaties. We nodigen u uit om lid te worden van onze community, om toegang te krijgen tot:

up-to-date informatie over de onderwerpen die u interesseren
onze nieuwsbrieven
gated thought-leader content en toegang met korting tot onze gewaardeerde evenementen, zoals Transform
netwerkfuncties en meer

Word lid

Generatieve data-intelligentie

Onderzoek naar de nieuwe functies van AWS SageMaker - verduidelijken, pijplijnen, Feature Store

Verduidelijken: het ontkrachten van AI heeft een menselijk element nodig

Pijpleidingen: goed probleem maar een complexe aanpak

Feature Store: een broodnodige functie voor de onderneming

Laatste gedachten

VentureBeat

Home

Homepagina - Crowdfund Suite

Laatste intelligentie

Inleiding tot natuurlijke taalverwerking [gratis NLP-cursus]

ESL Challenger Melbourne 2024: scores, klassementen en meer – Snowball Esports

De bemande testvlucht van Starliner doorstaat de belangrijkste beoordeling

2024 NFL Draft-cijfers

Update: BAE Systems schetst de voortgang van het Type 26-fregat te midden van een tekort aan staalarbeiders

Ethereum, Solana en Altcoins naderen 'Banana Zone', volgens Macro Guru Raoul Pal - Hier is zijn visie - The Daily Hodl

Chat met ons