Entdecken Sie die neuen Funktionen von AWS SageMaker – Clarify, Pipelines, Feature Store

Willkommen zu Teil 2 unserer zweiteiligen Serie über AWS SageMaker. Wenn Sie nicht gelesen haben Teil 1, hüpfe rüber und mach das zuerst. Ansonsten schauen wir uns einige wichtige neue SageMaker-Funktionen an:

Klären, die behauptet, "Verzerrungen in ML-Modellen zu erkennen" und die Interpretierbarkeit des Modells zu unterstützen
SageMaker-Pipelines, die helfen, den Fluss von ML-Pipelines zu automatisieren und zu organisieren
Feature-Store, ein Tool zum Speichern, Abrufen, Bearbeiten und Freigeben von speziell entwickelten Funktionen für ML-Workflows.

Klarstellen: Debiasing-KI braucht ein menschliches Element

Auf der AWS re: Invent-Veranstaltung im Dezember Swami Sivasubramanian führte Clarify als Werkzeug für die „Bias-Erkennung im gesamten Workflow des maschinellen Lernens“ ein. zu schwärmerischem Applaus und Pfeifen. Er stellte Nashlie Sephus vor, Managerin für angewandte Wissenschaft bei AWS ML, die in Voreingenommenheit und Fairness arbeitet. Wie Sephus deutlich macht, kann sich in jeder Phase des ML-Workflows eine Verzerrung zeigen: bei der Datenerfassung, Datenkennzeichnung und -auswahl sowie bei der Bereitstellung (z. B. Modelldrift).

Der Spielraum für Clarify ist groß. es behauptet in der Lage zu sein:

Führen Sie während der explorativen Datenanalyse eine Bias-Analyse durch
Führen Sie nach dem Training eine Voreingenommenheits- und Erklärbarkeitsanalyse durch
Erklären Sie individuelle Schlussfolgerungen für Modelle in der Produktion (sobald das Modell bereitgestellt ist).
integrieren mit Modellmonitor Echtzeit-Warnungen in Bezug auf Verzerrungen, die sich in Ihre Modelle einschleichen.

Clarify bietet eine Reihe nützlicher Diagnosen für jede der oben genannten Funktionen in einer relativ benutzerfreundlichen Oberfläche und mit einer praktischen API. Die oben genannten Ansprüche sind jedoch völlig übertrieben. Die Herausforderung besteht darin, dass algorithmische Verzerrungen selten, wenn überhaupt, auf Metriken wie Klassenungleichgewicht und positiven Vorhersagewert reduziert werden können. Es ist wertvoll, ein Produkt zu haben, das Einblicke in solche Metriken bietet, aber die Wahrheit ist, dass sie unter dem Tisch liegen. Bestenfalls spiegelt die Behauptung von SageMaker, dass Clarify Verzerrungen im gesamten ML-Workflow erkennt, die Lücke zwischen Marketing und tatsächlicher Wertschöpfung wider.

Um es klar auszudrücken: Die algorithmische Verzerrung ist eine der großen Herausforderungen unserer Zeit: Geschichten über maßstabsgetreue rechnerische Verzerrungen sind mittlerweile so alltäglich, dass es nicht verwunderlich ist, wenn Amazon selbst „verschrottet ein geheimes Rekrutierungsinstrument, das Voreingenommenheit gegenüber Frauen zeigt.„Um aus erster Hand zu erfahren, wie algorithmische Verzerrungen in ML-Pipelines gelangen können, lesen Sie das Lernspiel Überleben der besten Passform.

Das Reduzieren der algorithmischen Verzerrung und Fairness auf eine Reihe von Metriken ist nicht nur reduktiv, sondern auch gefährlich. Das erforderliche Domain-Know-how und die Einbeziehung wichtiger Stakeholder (ob Domain-Experten oder Mitglieder traditionell marginalisierter Gemeinschaften) in die Bereitstellung von Modellen werden nicht berücksichtigt. Es werden auch keine wichtigen Gespräche darüber geführt, was Voreingenommenheit und Fairness tatsächlich sind. und zum größten Teil sind sie nicht leicht auf zusammenfassende Statistiken zu reduzieren.

Es gibt eine große und wachsende Zahl von Literatur zu diesen Themen, einschließlich 21 Fairness-Definitionen und ihre Politik (Narayanan), Algorithmische Fairness: Entscheidungen, Annahmen und Definitionen (Mitchell et al.) Und Inhärente Kompromisse bei der fairen Bestimmung von Risikobewertungen (Kleingberg et al.), Von denen die letzte zeigt, dass es drei verschiedene Definitionen von algorithmischer Fairness gibt, die grundsätzlich niemals gleichzeitig erfüllt werden können.

Es gibt auch die wegweisende Arbeit von Timnit Gebrü, Joy Buolamwini und viele andere (wie z Geschlechtsfarben), was der Tatsache Ausdruck verleiht, dass algorithmische Verzerrung nicht nur eine Frage von Trainingsdaten und -metriken ist. In Dr. Gebru's Worten: „Bei Fairness geht es nicht nur um Datensätze, sondern auch um Mathematik. Bei Fairness geht es auch um die Gesellschaft, und als Ingenieure und Wissenschaftler können wir uns dieser Tatsache nicht wirklich entziehen. “

Um fair zu sein, Clarify's Dokumentation macht deutlich, dass Konsensbildung und Zusammenarbeit zwischen Stakeholdern - einschließlich Endbenutzern und Communities - Teil der Erstellung fairer Modelle sind. Außerdem heißt es, dass Kunden in jeder Phase des ML-Lebenszyklus Fairness und Erklärbarkeit berücksichtigen sollten: Problembildung, Datensatzkonstruktion, Algorithmusauswahl, Modellschulungsprozess, Testprozess, Bereitstellung und Überwachung / Feedback. Es ist wichtig, die richtigen Werkzeuge für diese Analyse zu haben. “

Leider lassen Aussagen wie „Clarify bietet Bias-Erkennung im gesamten Workflow des maschinellen Lernens“ die Lösung auf Knopfdruck klingen: Als ob Sie nur AWS für Clarify bezahlen und Ihre Modelle unvoreingenommen sind. Während Amazon Sephus klar versteht und artikuliert, dass Debiasing in ihrer Präsentation viel mehr erfordert, wird diese Nuance für die meisten Geschäftsleute verloren gehen.

Der Schlüssel zum Erfolg ist, dass Clarify einige nützliche Diagnosen in einer praktischen Oberfläche bietet, aber Käufer aufgepasst! Dies ist keineswegs eine Lösung für die algorithmische Verzerrung.

Pipelines: Richtiges Problem, aber ein komplexer Ansatz

SageMaker-Pipelines (Video-Tutorial, Pressemitteilung). Dieses Tool behauptet, der „erste CI / CD-Dienst für maschinelles Lernen“ zu sein. Es verspricht, ML-Workflows automatisch auszuführen und hilft bei der Organisation von Schulungen. Pipelines für maschinelles Lernen erfordern häufig mehrere Schritte (z. B. Datenextraktion, Transformation, Laden, Bereinigen, Dedupieren, Training, Validierung, Modell-Upload usw.). Pipelines sind ein Versuch, diese zusammenzufügen und Datenwissenschaftlern dabei zu helfen, diese Workloads in AWS auszuführen.

Wie gut funktioniert es? Erstens ist es codebasiert und verbessert sich erheblich AWS CodePipelines, die Waren Point-and-Click-basiert. Dies ist eindeutig eine Bewegung in die richtige Richtung. Bei der Konfiguration ging es traditionell darum, Dutzende von Konsolenkonfigurationen auf einer sich ständig ändernden Webkonsole umzuschalten, die langsam, frustrierend und in hohem Maße nicht reproduzierbar war. Point-and-Click ist das Gegenteil von Reproduzierbarkeit. Wenn Sie Ihre Pipelines im Code haben, können Sie Ihre Pipelines einfacher freigeben und bearbeiten. SageMaker Pipelines knüpft an eine starke Tradition an, Rechenressourcen als Code zu konfigurieren (die bekanntesten Beispiele sind Kubernetes or KüchenchefIn).

Das Festlegen von Konfigurationen in quellengesteuertem Code über eine stabile API war der Schritt der Branche.

Zweitens sind SageMaker-Pipelines in Python geschrieben und verfügen über die volle Leistung einer dynamischen Programmiersprache. Die meisten vorhandenen Allzweck-CI / CD-Lösungen mögen Github-Aktionen, Kreis CI, oder Azure-Pipelines Verwenden Sie statische YAML-Dateien. Dies bedeutet, dass Pipelines leistungsfähiger sind. Und die Wahl von Python (anstelle einer anderen Programmiersprache) war klug. Es ist die vorherrschende Programmiersprache für die Datenwissenschaft und hat wahrscheinlich die größte Traktion (R, die zweitbeliebteste Sprache, ist wahrscheinlich nicht gut für die Systemarbeit geeignet und den meisten Nicht-Datenentwicklern unbekannt).

Die Übernahme des Tools wird jedoch nicht reibungslos sein. Das offizielle Tutorial erfordert das korrekte Einstellen der IAM-Berechtigungen durch Umschalten der Konsolenkonfigurationen und das Lesen durch die Benutzer XNUMX Sonstiges Tutorials auf IAM-Berechtigungen, um dies zu erreichen. Die Terminologie scheint nicht mit der tatsächlichen Konsole übereinzustimmen ("Inline-Richtlinie hinzufügen" vs. "Richtlinie anhängen" oder "Vertrauensrichtlinie" vs. "Vertrauensbeziehung"). Solche kleinen Abweichungen können für diejenigen, die keine Experten für die Verwaltung von Cloud-Servern sind, sehr abstoßend sein - beispielsweise für die Zielgruppe von SageMaker Pipelines. Veraltete und inkonsistente Dokumentation ist angesichts der großen Anzahl von Diensten, die AWS anbietet, ein schwieriges Problem für AWS.

Das Tool hat auch eine ziemlich steile Lernkurve. Im offiziellen Tutorial können Benutzer einen Datensatz herunterladen, ihn in Schulungs- und Validierungssätze aufteilen und die Ergebnisse in das Verzeichnis hochladen AWS-Modellregistrierung. Leider dauert es 10 Schritte und 300 Zeilen Dev-Ops-Code (ja, wir haben gezählt). Dies beinhaltet nicht den eigentlichen Code für ML-Training und Datenvorbereitung. Die steile Lernkurve kann eine Herausforderung für die Einführung sein, insbesondere im Vergleich zu radikal einfacheren (Allzweck-) CI / CD-Lösungen wie Github Actions.

Dies ist kein streng fairer Vergleich und (wie bereits erwähnt) SageMaker Pipelines ist leistungsfähiger: Es verwendet eine vollständige Programmiersprache und kann viel mehr. In der Praxis wird CI / CD jedoch häufig nur verwendet, um zu definieren, wann eine Pipeline ausgeführt wird (z. B. beim Code-Push oder in regelmäßigen Abständen). Es ruft dann einen Task Runner auf (z. Schluck or Pyinvoke sind beide viel einfacher zu lernen; Das Tutorial von pyinvoke besteht aus 19 Zeilen und bietet die volle Leistung einer Programmiersprache. Wir könnten über ihre jeweiligen Sprach-SDKs, wie das weit verbreitete boto3, eine Verbindung zum AWS-Service herstellen. In der Tat hat einer von uns Github Actions CI / CD verwendet (missbraucht?), Um wöchentlich zu sammeln Abstimmungsdaten per E-Mail in Dutzenden von Staaten im Vorfeld der Wahlen 2020 und Erstellen Sie monatlich einfache Sprachmodelle aus den neuesten Wikipedia-Dumps. Die Frage ist also, ob es sich lohnt, ein All-in-One-Tool wie SageMaker Pipelines zu lernen, wenn es durch Zusammenfügen häufig verwendeter Tools repliziert werden kann. Hinzu kommt, dass SageMaker Pipelines aufgrund der natürlichen Stärke einer integrierten Lösung schwach sind (ohne mit Sicherheitsberechtigungen zwischen verschiedenen Tools kämpfen zu müssen).

AWS arbeitet an dem richtigen Problem. Angesichts der steilen Lernkurve ist jedoch unklar, ob SageMaker Pipelines ausreichen werden, um die Leute davon zu überzeugen, von den einfacheren vorhandenen Tools, die sie verwenden, zu wechseln. Dieser Kompromiss deutet auf eine breitere Debatte hin: Sollten Unternehmen einen All-in-One-Stack annehmen oder Best-of-Breed-Produkte verwenden? Mehr dazu in Kürze.

Feature Store: Eine dringend benötigte Funktion für das Unternehmen

Wie Sivasubramanian in seiner Keynote zu re: Invent erwähnte, sind „Merkmale die Grundlage von hochwertige Modelle.Der SageMaker Feature Store bietet ein Repository zum Erstellen, Freigeben und Abrufen von Funktionen für maschinelles Lernen für Schulungen und Schlussfolgerungen mit geringer Latenz.

Dies ist aufregend, da es einer der vielen Schlüsselaspekte des ML-Workflows ist, der zu lange in einer Vielzahl von Unternehmen und Branchen isoliert wurde, beispielsweise in der ML-Plattform von Uber Michelangelo (Der Feature Store wird aufgerufen Michelangelo-Palette). Ein großer Teil der Demokratisierung der Datenwissenschaft und Für Datenwerkzeuge müssen solche Werkzeuge standardisiert und für Datenfachleute zugänglicher gemacht werden. Diese Bewegung dauert an: Einige überzeugende Beispiele finden Sie in Airbnbs Open-Sourcing von Airflow, das Daten-Workflow-Management-Tool, zusammen mit dem Aufkommen von ML-Tracking-Plattformen, wie z Gewichte und Vorurteile, Neptun AI und Komet ML. Größere Plattformen wie MLFlow von Databricks versuchen, alle Aspekte des ML-Lebenszyklus zu erfassen.

Die meisten großen Technologieunternehmen haben ihre internen Feature-Stores. und Organisationen, die keine Feature-Stores führen, haben am Ende viel doppelte Arbeit. Wie Harish Doddi, Mitbegründer und CEO von Datatron, vor einigen Jahren sagte der O'Reilly Data Show Podcast: „Wenn ich heutzutage mit Unternehmen spreche, weiß jeder, dass ihre Datenwissenschaftler ihre Arbeit duplizieren, weil sie keinen zentralen Feature-Store haben. Jeder, mit dem ich spreche, möchte wirklich einen Feature-Store bauen oder sogar kaufen, je nachdem, was für ihn am einfachsten ist. “

Um ein Gefühl für den Problembereich zu bekommen, suchen Sie nicht weiter als die wachsende Anzahl von Lösungen, von denen einige in einer wettbewerbsorientierten Landschaftstabelle zusammengefasst sind FeatureStore.org:

Der SageMaker Feature Store ist vielversprechend. Sie können Feature-Gruppen mithilfe einer relativ pythonischen API erstellen und auf Ihre bevorzugten PyData-Pakete (wie Pandas und NumPy) zugreifen, alles bequem von einem Jupyter-Notebook aus. Nach der Feature-Erstellung ist es einfach, Ergebnisse in der Feature-Gruppe zu speichern, und es gibt sogar ein max_workers-Schlüsselwortargument, mit dem Sie den Aufnahmeprozess einfach parallelisieren können. Sie können Ihre Funktionen sowohl offline als auch in einem Online-Shop speichern. Letzteres ermöglicht den Zugriff auf die neuesten Werte für eine Funktion mit geringer Latenz.

Der Feature Store eignet sich gut für grundlegende Anwendungsfälle. Wir konnten nicht feststellen, ob es für die Produktion mit industriellen Anwendungen bereit ist, aber jeder, der diese Funktionen benötigt, sollte es überprüfen, wenn Sie SageMaker bereits verwenden oder erwägen, es in Ihren Workflow zu integrieren.

Abschließende Gedanken

Schließlich kommen wir zu der Frage, ob All-in-One-Plattformen wie SageMaker alle Anforderungen moderner Datenwissenschaftler erfüllen können, die Zugriff auf die neuesten, modernsten Tools benötigen.

Es gibt einen Kompromiss zwischen All-in-One-Plattformen und erstklassigen Werkzeugen. All-in-One-Plattformen sind attraktiv, da sie Lösungen zusammenstellen können, um die Leistung zu beschleunigen. Sie können auch ansonsten unterschiedliche Tools nahtlos integrieren (obwohl sie, wie wir oben gesehen haben, dieses Versprechen nicht immer einhalten). Stellen Sie sich eine Welt vor, in der Berechtigungen, Sicherheit und Kompatibilität ohne Benutzereingriff nahtlos vom System verwaltet werden. Best-of-Breed-Werkzeuge können einzelne Schritte des Workflows besser lösen, erfordern jedoch einige Arbeiten zum Zusammenfügen. Einer von uns hat zuvor argumentiert, dass Best-of-Breed-Tools für Datenwissenschaftler besser sind. Die Jury ist noch nicht besetzt. Die Data-Science-Arena explodiert mit Support-Tools. Wenn Sie herausfinden, welcher Service (oder eine Kombination davon) die effektivste Datenumgebung darstellt, wird die technische Community lange Zeit beschäftigt sein.

Tianhui Michael Li ist Präsident bei Pragmatisches Institut und der Gründer und Präsident von Der Dateninkubator, eine datenwissenschaftliche Ausbildungs- und Vermittlungsfirma. Zuvor leitete er die Monetarisierungsdatenwissenschaft bei Foursquare und arbeitete bei Google, Andreessen Horowitz, JP Morgan und DE Shaw.

Hugo Bowne-Anderson ist Leiter Data Science Evangelism und VP of Marketing bei Aufgerollt. Zuvor war er Datenwissenschaftler bei DataCampund unterrichtete datenwissenschaftliche Themen an der Yale University und im Cold Spring Harbor Laboratory, Konferenzen wie SciPy, PyCon und ODSC sowie mit Organisationen wie Data Carpentry. [Vollständige Offenlegung: Im Rahmen seiner Dienste stellt Coiled Cloud-Ressourcen bereit und verwaltet sie, um Python-Code für Datenwissenschaftler zu skalieren, und bietet damit etwas, das SageMaker auch im Rahmen seiner Dienste tut. Es ist aber auch wahr, dass All-One-Plattformen wie SageMaker und Produkte wie Coiled als Ergänzung angesehen werden können: Coiled hat mehrere Kunden, die neben Coiled auch SageMaker Studio verwenden.]

Wenn Sie ein erfahrener Daten- oder KI-Praktiker sind, können Sie Ihr Fachwissen über a an die Community weitergeben Gast-Beitrag für VentureBeat.

VentureBeat

Die Mission von VentureBeat ist es, ein digitaler Stadtplatz für technische Entscheidungsträger zu sein, um Wissen über transformative Technologie und Transaktionen zu erlangen. Unsere Website bietet wichtige Informationen zu Datentechnologien und -strategien, die Sie bei der Führung Ihres Unternehmens unterstützen. Wir laden Sie ein, Mitglied unserer Community zu werden und auf Folgendes zuzugreifen:

aktuelle Informationen zu den für Sie interessanten Themen
unsere Newsletter
gated Vordenker-Inhalte und ermäßigter Zugang zu unseren wertvollen Veranstaltungen wie Transform
Netzwerkfunktionen und mehr

Mitglied werden

Generative Datenintelligenz

Entdecken Sie die neuen Funktionen von AWS SageMaker - Clarify, Pipelines, Feature Store

Klarstellen: Debiasing-KI braucht ein menschliches Element

Pipelines: Richtiges Problem, aber ein komplexer Ansatz

Feature Store: Eine dringend benötigte Funktion für das Unternehmen

Abschließende Gedanken

VentureBeat

Drei Schlüssel für den Sieg der Inselbewohner im fünften Spiel

Drei Schlüssel für den Sieg der Inselbewohner im fünften Spiel

Neueste Intelligenz

Drei Schlüssel für den Sieg der Inselbewohner im fünften Spiel

Die Lakers erringen den ersehnten Sieg gegen Denver, liegen nun in Serie mit 3:1 zurück

Die Lakers erringen den ersehnten Sieg gegen Denver, liegen nun in Serie mit 3:1 zurück

Die Lakers erringen den ersehnten Sieg gegen Denver, liegen nun in Serie mit 3:1 zurück

Dogecoin- und Pepecoin-Enthusiasten versammeln sich hinter dem neuen KI-Token, der von der Wahoo Exchange Platform – CryptoInfoNet – eingeführt wurde

Lehren aus dem FTX-Prozess: Die Regulierung von CEXs reicht möglicherweise nicht aus, um schlechte Akteure zu verhindern | Meinung – CryptoInfoNet