Zephyrnet-Logo

Aufbau nachhaltiger KI/ML-Lösungen in der Cloud mit Federated Learning

Datum:

Image

Sharmistha Chatterjee Hacker Noon Profilbild

@Sharmi1206Sharmistha Chatterjee

https://www.linkedin.com/in/sharmistha-chatterjee-7a186310/

Die globale Erwärmung nimmt aufgrund der im Vergleich zur Vergangenheit höchsten Konzentrationen an Kohlendioxid, Methan und Lachgas zu. Data Scientists, Data Engineers und Cloud-Experten haben sich alle auf den Weg gemacht, um eine nachhaltigere Umgebung zu schaffen, indem sie die Best Practices des maschinellen Lernens befolgen.

Modelle des maschinellen Lernens wirken sich nachteilig auf die Umwelt aus, wenn sie erhebliche Rechenressourcen und Energie verbrauchen, während sie Tausende von Stunden lang trainiert werden spezialisierte Hardware-Beschleuniger in Rechenzentren.

Der durchschnittliche Temperaturanstieg hat in den letzten 3 Jahrzehnten (ab 1980) stetig zugenommen, wie in der folgenden Abbildung dargestellt. Alle bekannten meteorologischen Agenturen/Gremien zeigen ähnliche Trends, die Umweltschützer, Geologen und Technologieexperten in verschiedenen Bereichen dazu veranlasst haben, bestimmte Standards für die Kontrolle des Temperaturanstiegs festzulegen.

Image

Globale durchschnittliche Temperaturanomalie von 1880 bis 2012, verglichen mit dem langfristigen Durchschnitt von 1951 bis 1980. Quelle: NASA Earth Observatory.

Die Forschung zur Reduzierung des Energieverbrauchs von ML-Modellen hat zur Verwendung von "Der letzte Stand der Technik" Modelle, die sich von herkömmlichen Machine-Learning-Ansätzen unterscheiden, indem sie einem dezentralen Training folgen. Anstelle einer Zentrale ML mit dem Server, der für die Abwicklung aller ML-Trainingsaufgaben verantwortlich ist, in Verbundenes Lernen, einzelne Geräte trainieren ihre eigenen lokalen Daten und senden die aktualisiert Modell in die Cloud/Server, die das Modell von verschiedenen Geräten aggregiert und das aktualisierte Modell zurück zum Low-Level-Lichtlaser.

Mit der schrittweisen Weiterentwicklung von Federated Learning (FL) wird die Bedeutung von FL in Nachhaltigkeit realisiert wurde, insbesondere wenn wiederaufladbare Geräte kann Energie aus dem Umgebungs- Umwelt, Sparen Energiekosten in vernetzte Umgebungen in drahtlosen und Rand Netzwerke.

Federated Learning und Client Data und ihre Bedeutung

Federated Learning (FL)-Einstellungen können auf beide angewendet werden Silo- oder geräteübergreifend. In einem siloübergreifenden Szenario gibt es im Allgemeinen wenige Clients mit hoher Verfügbarkeit während aller Runden und wahrscheinlich eine ähnliche Datenverteilung für Schulungen, z. B. Krankenhäuser. Dieses Szenario dient eher als Anwendungsfall, den es zu berücksichtigen gilt Unabhängig und ichdentisch verteilte (IID) Verteilungen.

Für den zweiten Anwendungsfall können wir ein geräteübergreifendes System in Betracht ziehen, das wahrscheinlich Tausende von Kunden mit sehr unterschiedlichen Kunden umfasst Datenverteilungen (Nicht-IID) Teilnahme an nur wenigen Runden, zB Training von Next-Word-Prediction-Modellen auf mobilen Geräten.

Somit kann bekannt sein, dass FL zwei verschiedene Partitionsschemata bedient: a einheitliche Partition (IID) wobei jeder Client ungefähr den gleichen Anteil jeder Klasse aus dem ursprünglichen Datensatz hat und a heterogene Partition (Nicht-IID) für die jeder Kunde eine unausgeglichen und unterschiedlicher Anteil jeder Klasse.

Neben dem Umgang mit unterschiedlichen Datenverteilungen ist es möglich, die analytischen COXNUMX-Fußabdruck-Modell für FL, die eine einzigartige quantitative CO2e-Emissionen Schätzmethode. Dies kann eine detaillierte Studie zu den Emissionen liefern, die sowohl aus Hardwareschulungen als auch aus der Kommunikation zwischen Servern und Clients resultieren. Dies bietet eine solide Grundlage, um die Roadmap für die Zukunft aufzuzeigen umweltfreundlich föderiertes Lernen.

Darüber hinaus ermöglicht das FL-Setup den Forschern, Kohlenstoffsensitivitätsanalyse auf echt FL-Hardware unter verschiedenen Einstellungen, Strategien und Aufgaben. Die Studien und Experimente haben ergeben, dass die CO2e-Emissionen von einer Vielzahl von Hyperparametern abhängen und die Emissionen aus der Kommunikation zwischen Clients und Servern von 0.4 % der Gesamtemissionen zu mehr als 95%, und effiziente Strategien können die CO2e-Emissionen um bis zu 60 % reduzieren.

FL wird auch weiterhin seinen langfristigen Einfluss auf die gesamte CO2e-Emission ausüben. Dies könnte weiter erleichtert werden, indem nachhaltiger physischer Standort, relevant Deep-Learning-Aufgaben, Modellarchitektur, FL-Aggregationsstrategie, und Hardware-Effizienz.

Warum Nachhaltigkeit im föderierten Lernen?

Einer der wichtigsten Faktoren, die in FL berücksichtigt werden müssen, ist Quantifizieren Kohlenstoffemissionen. Wie die Forschung bereits gezeigt hat
Die richtige Auslegung des FL-Setups führt zu einer Verringerung dieser Emissionen, die Integration des freigesetzten CO2e dient als entscheidende Kennzahl für den FL-Einsatz.

FL ist bekannt konvergieren schneller mit weniger FL-Runden, um die Anzahl der lokalen Epochen zu erhöhen. Dies garantiert jedoch nicht
a kleinere Gesamt- Energie Verbrauch.

Die folgende Abbildung veranschaulicht, wie Federated Learning durch effiziente Algorithmen, die das Gerät auf Serverkommunikation einerseits und die Verwendung von fortschrittliche Hardware mit besser Verarbeitung und mehr Transparenz über den Energieverbrauch.

Image

Im Vergleich zu zentralisierten Systemen, bei denen die Kühlung in Rechenzentren bis zu 40% des gesamten Energieverbrauchs ausmacht, benötigt oder verwendet FL diesen Parameter nicht. Auf der anderen Seite kann FL die Verhältnis der Energieverbrauchseffektivität (PUE).

Nutzung erneuerbarer Energieverfügbarkeit während des Trainings in Geräten

Es gibt verschiedene Initiativen, um die COXNUMX-Emissionen zu kompensieren Emissionsausgleich oder mit dem Kauf von Gutschriften für erneuerbare Energien (RECs, in den USA) or Handelbare grüne Zertifikate (TGCs, in der EU). COXNUMX-Kompensation ist eine Maßnahme, die eingeleitet wird, um umweltschädliche Maßnahmen durch verschiedene Investitionen in umweltfreundliche Projekte, wie zErneuerbare Energien or massive Baumpflanzung Anderson, (2012).

Geräte können auch davon abhängen erneuerbaren Energieressourcen für die eigene Energieerzeugung, die in erster Linie auf 2 Arten erreicht werden kann und die eine Strategie aufzeigt, wie Geräte Updates an den zentralen Server im FL-Setup senden können.

Im ersten Anwendungsfall, wie in der folgenden Abbildung dargestellt, sehen wir, dass Clients Opportunist über den Einsatz ihrer Energie während des Trainingsprozesses, was zu einer Degradierung bei der Leistung. Einige der Hauptmerkmale dieses Prozesses sind:

  • Nehmen Sie an Schulungen zum Thema Energieverfügbarkeit teil.
  • Der Energieerzeugungsprozess ist nicht über alle Geräte hinweg einheitlich
  • Voreingenommenheit des globalen Modells gegenüber Kunden mit häufigeren Energieeingängen, was zu einem Leistungsverlust bei der Genauigkeit führt.
  • Image

    Im zweiten Anwendungsfall, wie in der folgenden Abbildung dargestellt, sehen wir, dass Clients Pessimisten über den Verbrauch ihrer Energie und warten Sie, bis der langsamste Klient genug Energie hat, bevor Sie mit dem Training beginnen. Infolgedessen kann der Prozess langsam sein, bietet jedoch eine bessere Leistung. Einige der Hauptmerkmale dieses Prozesses sind:

    Image

    Anstatt sich strikt an eines dieser Prinzipien zu halten, kann es einen optimalen Planungsprozess für den Kunden für das Training geben. Kunden Auswahl in herkömmlichen föderierten Lernalgorithmen basiert in erster Linie auf der Annahme, dass alle Kunden sind von Natur aus verfügbar zur Teilnahme am Training, falls gewünscht. Kunden haben die Flexibilität für Ausfälle, die auftreten können gleichmäßig zufällig (was das Training nicht verzerrt).

    Die wichtigsten Schwerpunkte in FL waren die Auswahl der Kunden, die Maximieren Sie die Konvergenzrate oder Veteran Kommunikationsaufwand des Trainings. Im Gegensatz dazu kann der optimale Planungsprozess helfen, den Energieverbrauch strategisch zu planen, indem er ausgewählten Kunden die Teilnahme am Trainingsprozess ermöglicht, indem a stochastische Prozessdefinierung basierend auf ihren Energieprofil statt ihre Teilnahme an allen Runden zuzulassen. Dieser Scheduling-Prozess stellt Konvergenz sicher, indem er die Anzahl der Clients konstant hält, die an einer globalen Runde teilnehmen.

    Ein einzigartiges Merkmal dieser Planung besteht darin, dass Clients bei jeder globalen Runde ein lokales Training durchführen können, aber das globale Modell wird aktualisiert, indem nur die lokalen Aktualisierungen von den Clients verwendet werden, die ursprünglich bei dieser globalen Runde geplant wurden.

    Wenn wir versuchen, die Genauigkeit und die Anzahl der Runden (oder mit anderen Worten, die für die Modellkonvergenz benötigte Zeit) zu verstehen, sehen wir das optimale Scheduling (Algorithmus1) zusammen mit FedDurchschn schneidet in Bezug auf die Genauigkeit besser ab, während Benchmark1 ein ziemlich konstante Genauigkeit für die unterschiedliche Anzahl von globalen Runden. ichIm Gegensatz dazu zeigt Benchmark2 eine Erhöhung der Genauigkeit durch die Erhöhung der globalen Runden.

    Auf der anderen Seite sollten wir uns auch bewusst sein, dass CO2e-Emissionen (ausgedrückt in Gramm, dh niedriger ist besser) sowohl für zentralisiertes Lernen als auch für FL, wenn sie die Zielgenauigkeiten mit unterschiedlichen Einstellungen erreichen.

    Image

    Benchmark -1 Jeder Klient nimmt am Training teil, sobald er genügend Energie hat und wartet dann bis zur nächsten Energieankunft.

    Benchmark – 2: Das globale Modell wird nur aktualisiert, wenn alle Clients Energie erhalten haben, dh der Server wartet, bis alle Clients Energie zur Verfügung haben, bevor er ein globales Update initiiert.

    Kennzahlen für COXNUMX-Emissionen

    Wir müssen die Cloud-Nachhaltigkeit quantifizieren Föderiertes Lernen (FL)-Umgebung. Neben Werbeaktionen für nachhaltige Lieferketten müssen wir einen starken Schwerpunkt auf Intelligentere, effiziente Unternehmensrechenzentren wo wir die COXNUMX-freien Energiewerte zusammen mit der Effektivität des Stromverbrauchs messen können. In der folgenden Referenzabbildung finden Sie einige Definitionen der wichtigsten Messwerte in Bezug auf die Google Cloud Platform.

    Image

    Google CFE %: Dies ist der durchschnittliche Prozentsatz an COXNUMX-freier Energie, der von einer Benutzeranwendung an einem bestimmten Standort auf Stundenbasis verbraucht wird, unter Berücksichtigung der Investitionen, die wir an diesem Standort in erneuerbare Energien getätigt haben. Dies bedeutet, dass zusätzlich zu den kohlenstofffreie Energie die bereits aus dem Netz geliefert wird, haben wir an diesem Standort erneuerbare Energieerzeugung hinzugefügt, um unser rund um die Uhr kohlenstofffreies Geschäft zu erreichen Energieziel.

    Netzkohlenstoffintensität (gCO2eq/kWh): Diese Kennzahl gibt die durchschnittlichen Bruttoemissionen über den Lebenszyklus pro Energieeinheit aus dem Netz an. Diese Metrik sollte verwendet werden, um die Regionen in Bezug auf die Kohlenstoffintensität ihres Stroms aus dem lokalen Netz. Für Regionen mit ähnlichem CFE% gibt dies die relativen Emissionen an, wenn Ihre Arbeitslast nicht mit kohlenstofffreier Energie betrieben wird.

    Netto-Kohlenstoffemissionen von Google Cloud (Markt basiert auf Scope 2) Google investiert in ausreichend erneuerbare Energien und CO2-Kompensationen, um den globalen betrieblichen COXNUMX-Fußabdruck von Google Cloud gemäß dem GHG-Protokoll gemäß der marktbasierten Methodik von Scope XNUMX zu neutralisieren.

    Einzigartige Cloud-Strategien Da sich die Google Cloud Platform aktiv auf die Steigerung der CFE% Für jede der Google Cloud-Regionen trägt die Bereitstellung von Lösungen mit einem höheren Prozentsatz kohlenstofffreier Energie zur Erhöhung der Nachhaltigkeit der Lösung bei. Einige der einzigartigen Vorschläge für Cloud-KI-Spezialisten und -Architekten sind:

    Wählen Sie eine kohlenstoffärmere Region für Ihre neuen Anwendungen: Aufbau und Betrieb neuer Anwendungen in der Region mit dem höchsten CFE%, der bei der Anwendung verfügbar ist.

    Ausführen von Batch-Jobs in einer Region mit geringerer COXNUMX-Emissionen: Planung von Batch-Workloads durch Auswahl der Region mit dem höchsten CFE%, um die kohlenstofffreie Energie für den Job zu maximieren. 

    Legen Sie eine Organisationsrichtlinie für kohlenstoffärmere Regionen fest: Erlaubt die Nutzung von Ressourcen und Diensten in bestimmten Regionen, während der Zugriff und die Nutzung in anderen Regionen eingeschränkt werden.

    Effiziente Nutzung der Dienste: Steigerung der Effizienz von Cloud-Apps durch weniger Energieverbrauch (und damit weniger COXNUMX-Emissionen) durch Erhöhung der Abhängigkeit von serverlosen Produkten wie Cloud Run, Cloud Functions. Diese Dienste skalieren automatisch je nach Auslastung und sparen Energie so weit wie möglich. Darüber hinaus spielt auch die richtige VM-Auslegung eine wichtige Rolle beim Energiesparen.

    Die folgende Abbildung zeigt, wie verschiedene Varianten von Federated Learning – FedAVG, FedAdam, FedAdaGrad mit verschiedenen adaptiven ML-Optimierern können mit den richtigen Cloud-Optimierungen zusammenarbeiten, um die COXNUMX-Emissionen zu reduzieren.

    Image

    Cloud- und ML-Optimierungen in Federated Learning

    Schlussfolgerung und zukünftige Arbeit

    Mit den aktuellen Forschungsergebnissen und potenziellen Möglichkeiten von Federated Learning (FL) gibt es gezielte Richtungen beim Bauen nachhaltig föderiert und verteilt Lernschemata für große Netzwerke. In groß angelegten Bereitstellungen trainieren Millionen von Geräten gemeinsam Modelle für maschinelles Lernen über große Datenmengen. Einige dieser Forschungsrichtungen beinhalten die Formalisierung der grundlegenden Leistungsgrenzen des verteilten Trainings unter stochastisch und unbekannt Energieankunft Prozesse. Die Erforschung und Forschung zu Modellquantisierungs- und Kompressionstechniken wird fortgesetzt, die helfen können, sich an die Ressource anzupassen und Energieankunftsmuster und charakterisieren die Beziehung zwischen Energieerneuerungsprozesse und Training Leistung.

    Das Endziel der Bereitstellung einer einfachen und skalierbaren föderierten Lernstrategie mit nachweisbaren Konvergenzgarantien kann mit Sustainable Federated Leading erreicht werden. Hier in Sustainable FL können sich Geräte auf zeitweilige Energieverfügbarkeit verlassen. Ein solcher vorgeschlagener Rahmen kann die Trainingsleistung im Vergleich zu den energieagnostischen Benchmarks erheblich verbessern.

    Bibliographie

    • Ein erster Blick auf den COXNUMX-Fußabdruck von Federated Learning – https://arxiv.org/pdf/2102.07627.pdf
    • https://cloud.google.com/blog/topics/sustainability/sharing-carbon-free-energy-percentage-for-google-cloud-regions
    • NACHHALTIGES FÖDERIERTES LERNEN – https://arxiv.org/pdf/2102.11274.pdf
    • https://cloud.google.com/sustainabilityAdaptive Federated Optimization – https://arxiv.org/pdf/2003.00295.pdf

Schlüsselwörter

Mach mit bei Hacker Noon

Erstellen Sie Ihr kostenloses Konto, um Ihr benutzerdefiniertes Leseerlebnis freizuschalten.

Münzsmart. Beste Bitcoin-Börse in Europa
Quelle: https://hackernoon.com/building-sustainable-aiml-solutions-in-the-cloud-with-federated-learning-bm1u353v?source=rss

spot_img

Neueste Intelligenz

spot_img