Zephyrnet-Logo

Das Technology Innovation Institute trainiert das hochmoderne Falcon LLM 40B Foundation-Modell auf Amazon SageMaker | Amazon Web Services

Datum:

Dieser Blogbeitrag wurde gemeinsam mit Dr. Ebtesam Almazrouei, Executive Director und amtierender Chef-KI-Forscher der AI-Cross Center Unit und Projektleiter für LLM-Projekte am TII, verfasst.

Vereinigte Arabische Emirate (VAE) Institut für Technologieinnovation (TII), die Säule der angewandten Forschung in Abu Dhabi Forschungsrat für fortgeschrittene Technologie, hat Falcon LLM eingeführt, ein grundlegendes großes Sprachmodell (LLM) mit 40 Milliarden Parametern. TII ist ein führendes globales Forschungszentrum, das sich der Erweiterung der Grenzen des Wissens widmet. Das TII-Team aus Wissenschaftlern, Forschern und Ingenieuren arbeitet daran, Entdeckungswissenschaft und transformative Technologien bereitzustellen. Die Arbeit von TII konzentriert sich auf Durchbrüche, die unsere Gesellschaft zukunftssicher machen. Auf 1 Billion Token trainiert, TII Falcon LLM bietet erstklassige Leistung und bleibt dabei unglaublich kostengünstig. Falcon-40B erreicht die Leistung anderer Hochleistungs-LLMs und ist das bestplatzierte Open-Source-Modell in der Öffentlichkeit Hugging Face Open LLM-Rangliste. Es ist als Open-Source-Lösung in zwei verschiedenen Größen verfügbar – Falcon-40B und Falcon-7B – und wurde mithilfe von Datenvorverarbeitung und darauf aufbauenden Modelltrainingsjobs von Grund auf neu entwickelt Amazon Sage Maker. Das Open-Sourcing von Falcon 40B ermöglicht es Benutzern, KI-Tools zu erstellen und anzupassen, die auf die individuellen Bedürfnisse der Benutzer zugeschnitten sind, eine nahtlose Integration ermöglichen und die langfristige Erhaltung von Datenbeständen gewährleisten. Die Modellgewichte können überall heruntergeladen, überprüft und eingesetzt werden.

Ab dem 7. Juni werden beide Falcon LLMs auch in Amazon SageMaker JumpStart verfügbar sein, dem Hub für maschinelles Lernen (ML) von SageMaker, der vorab trainierte Modelle, integrierte Algorithmen und vorgefertigte Lösungsvorlagen bietet, um Ihnen den schnellen Einstieg in ML zu erleichtern. Sie können die Falcon LLMs mit wenigen Klicks bereitstellen und verwenden SageMaker-Studio oder programmgesteuert über die SageMaker Python-SDK. Informationen zum Bereitstellen und Ausführen von Rückschlüssen auf Falcon-LLMs finden Sie im Einführung in SageMaker JumpStart – Textgenerierung mit Falcon LLMs Beispiel Notizbuch.

Dr. Ebtesam Almazrouei, geschäftsführender Direktor und amtierender Chef-KI-Forscher der AI-Cross Center Unit und Projektleiter für LLM-Projekte am TII, teilt mit:

„Wir verkünden stolz die offizielle Open-Source-Veröffentlichung von Falcon-40B, dem weltweit führenden Open-Source-Sprachmodell, das von TII entwickelt wurde. Falcon-40B hat renommierte Modelle wie LLaMA-65B, StableLM, RedPajama und MPT in der öffentlichen Bestenliste von Hugging Face übertroffen und seine außergewöhnliche Leistung ohne spezielle Feinabstimmung unter Beweis gestellt.“

„Diese beeindruckende Leistung spiegelt das Engagement der VAE wider, die Grenzen der KI-Innovation zu verschieben“, fährt Dr. Almazrouei fort. „Durch die Veröffentlichung von Falcon-40B als Open-Source-Modell bieten wir Forschern, Unternehmen und Organisationen die Möglichkeit, seine leistungsstarken Fähigkeiten in verschiedenen Sektoren zu nutzen. Die Open-Source-Version von Falcon-40B ermöglicht es Unternehmen, seine außergewöhnlichen Fähigkeiten zu nutzen und Fortschritte bei KI-gesteuerten Lösungen voranzutreiben. Es stellt einen bedeutenden Meilenstein in unserem Engagement zur Förderung von KI-Innovationen dar und ist ein Beispiel für die tiefgreifenden wissenschaftlichen Beiträge der VAE. Um das bemerkenswerte Potenzial von Falcon-40B zu erkunden, besuchen Sie bitte FalconLLM.tii.ae. Nutzen Sie gemeinsam mit uns die Leistungsfähigkeit von Falcon-40B, um die Zukunft der KI zu gestalten und Branchen zu revolutionieren.“

In diesem Beitrag tauchen wir mit Dr. Almazrouei ausführlich über die Falcon LLM-Schulung zu SageMaker, Datenkuration, Optimierung, Leistung und die nächsten Schritte ein.

Eine neue Generation von LLMs

LLMs sind Softwarealgorithmen, die darauf trainiert sind, natürliche Textsequenzen zu vervollständigen. Aufgrund ihrer Größe und der Menge an Trainingsdaten, mit denen sie interagieren, verfügen LLMs über beeindruckende Textverarbeitungsfähigkeiten, einschließlich Zusammenfassung, Beantwortung von Fragen, Lernen im Kontext und mehr.

Anfang 2020 legten Forschungsorganisationen auf der ganzen Welt den Schwerpunkt auf die Modellgröße und stellten fest, dass die Genauigkeit mit der Anzahl der Parameter korreliert. Beispielsweise verfügen GPT-3 (2020) und BLOOM (2022) über rund 175 Milliarden Parameter, Gopher (2021) über 230 Milliarden Parameter und MT-NLG (2021) über 530 Milliarden Parameter. Im Jahr 2022 Hoffman et al. stellte fest, dass das aktuelle Rechengleichgewicht zwischen Modellparametern und Datensatzgröße nicht optimal war, und veröffentlichte empirische Skalierungsgesetze, die darauf hindeuten, dass ein Ausgleich des Rechenbudgets hin zu kleineren Modellen, die mit mehr Daten trainiert werden, zu leistungsstärkeren Modellen führen könnte. Sie setzten ihre Leitlinien im 70B-Parameter-Modell Chinchilla (2022) um, das weitaus größere Modelle übertraf.

LLM-Schulung zu SageMaker

SageMaker ist eine Sammlung verwalteter APIs zum Entwickeln, Trainieren, Optimieren und Hosten von Modellen für maschinelles Lernen (ML), einschließlich LLMs. Zahlreiche Kunden verlassen sich bei ihren LLM-Workloads auf SageMaker, wie z Stabilität KI, AI21-Labors und LG AI. SageMaker-Schulung stellt Rechencluster mit benutzerdefinierter Hardwarekonfiguration und benutzerdefiniertem Code bereit. Rechenjobs werden pro Ausführung und sekundengenau abgerechnet, was bedeutet, dass Benutzern keine GPU-Kapazität in Rechnung gestellt wird, wenn sie den Dienst nicht nutzen. TII nutzte transiente Cluster, die von der SageMaker Training API bereitgestellt wurden, um den Falcon LLM zu trainieren, bis zu 48 ml.p4d.24xlarge-Instanzen, kumuliert in 384 NVIDIA A100-GPUs. Jetzt trainiert TII das nächste Falcon LLM und skaliert sein Training auf 3,136 A100-GPUs (392 ml.p4d-Instanzen).

Eine beispiellose Menge an maßgeschneiderten Innovationen floss in alle Ebenen des Projekts ein, um die Messlatte für wissenschaftliche Qualität und Trainingsgeschwindigkeit höher zu legen. In den nächsten Abschnitten beschreiben wir die Optimierungen, die TII auf allen Ebenen des Deep-Learning-Trainingssystems (DL) durchgeführt hat.

Skalierbare Datenkuration

LLMs der neuesten Generation beziehen ihre Stärke aus der Größe und Qualität der Trainingsdaten. Das Team legte besonderen Wert auf die Erstellung eines hochwertigen Billionen-Token-Datensatzes. Mehrere SageMaker Training CPU-Jobs verwandelten Petabytes an günstigen, skalierbaren Webdaten in einen kuratierten, sicheren Trainingsdatensatz. Automatisierte Systeme filterten und deduplizierten die Daten; Beispielsweise wurden ML-Klassifikatoren verwendet, um Obszönitäten zu filtern. CPU-Jobs, die auf ml.c5.18xlarge (72 vCPUs, 144 GB RAM) ausgeführt werden, wurden in wenigen API-Aufrufen über SageMaker Training instanziiert, um Datentransformationsaufgaben auszuführen. Das Team nutzte sowohl Einzelinstanz- als auch Multiinstanz-CPU-Jobs für unterschiedliche Anwendungsfälle. Einige dieser Jobs nutzten Hunderte von SNA-Jobs (Parallel Share-Nothing Architecture), jeweils auf einem einzigen Computer. Für Aufgaben, die eine Synchronisierung zwischen Workern erforderten, startete das Team Multi-Instanz-Jobs, die sich in Dutzenden von Instanzen und Tausenden von vCPUs kumulierten. Anekdotisch ist, dass das Team bei einer nachgelagerten Datensatzvorbereitungsaufgabe in einem einzigen SageMaker-Schulungsauftrag bis zu 257 ml.c5.18xlarge erreichte, was kumuliert 18,504 vCPU und 37 TB Arbeitsspeicher entspricht.

Maximierung des Trainingsdurchsatzes

Um sowohl die Trainingskosten als auch die Markteinführungszeit zu minimieren, verfolgte das Team mehrere Optimierungsrichtungen, um die Trainingsgeschwindigkeit proportional zu den pro Sekunde verarbeiteten Trainingstokens zu beschleunigen und in TFLOPs/GPU zu messen. Das Team verwendete ein vollständig benutzerdefiniertes 3D-paralleles LLM-Trainingsframework mit benutzerdefinierten optimierten Ebenen, die in kompiliertem GPU-Code geschrieben sind. Das Team ging sogar so weit, eine eigene benutzerdefinierte Matrixmultiplikationsimplementierung zu schreiben, um noch schneller zu werden! Das Team entwickelte außerdem eine Logik, die die parallele Kommunikation an die zugrunde liegende Netzwerktopologie anpasst. Während ihrer ersten Skalierungsexperimente konnte TII 166 TFLOPs/GPU auf einem 147B-Modell mit 256 GPUs und 173 TFLOPs/GPU auf einem 13B-Modell mit 16 GPUs erreichen, unseres Wissens nach die schnellsten bekannten Modell-TFLOPs, die in der Cloud erreicht wurden der Zeitpunkt des Tests Ende 2022.

Serverloser Speicher

Die LLM-Ausbildung ist speicherintensiv; Mehrere Terabyte an Trainingsdaten müssen zum Trainingscluster geleitet werden, und mehrere Terabyte an Modellkontrollpunkten wandern regelmäßig vom Cluster zurück zum permanenten Speicher. Kontrollpunkte müssen auch im Falle eines Jobneustarts so schnell wie möglich den Trainingscluster erreichen. Beim traditionellen Hochleistungsrechnen (HPC) sind Rechenknoten mit verteilten Dateisystemen verbunden, die über eine POSIX-ähnliche Schnittstelle leistungsstarke I/O und Durchsatz bereitstellen. In AWS nutzen Kunden regelmäßig das Amazon FSx für Lustre Dateisystem für diesen Zweck (weitere Einzelheiten finden Sie unter Beschleunigen Sie das Training in Amazon SageMaker mit Amazon FSx für Lustre und Amazon EFS-Dateisystemen), und wir haben auch die selbstverwaltete Nutzung von BeeGFS dokumentiert eine Fallstudie zu verteilter Computer Vision. Aufgrund ihres Fokus auf Kosten und betriebliche Einfachheit entschied sich das Team, keine Dateisystemserver zu implementieren und zu betreiben, sondern nahm stattdessen die Herausforderung an, ausschließlich auf serverlosem Objektspeicher aufzubauen Amazon Simple Storage-Service (Amazon S3). Mit dem AWS SDK für Python (Boto3) wurde eine benutzerdefinierte S3-Datensatzklasse erstellt, die eine zufriedenstellende Leistung lieferte und es den Wissenschaftlern gleichzeitig ermöglichte, autonom I/O-Engineering und Modellwissenschaft innerhalb derselben Codebasis zu iterieren.

Kundenseitige Innovation

Ein LLM-Projekt besteht selten aus einer einzigen Ausbildungsstelle; Für die Durchführung erster Tests und Erfahrungen sind zahlreiche Arbeiten erforderlich. Im Verlauf der Hauptproduktionsschulung können mehrere Aufgaben verkettet werden, beispielsweise um Konfigurations- oder Softwareversionen zu aktualisieren, Patches bereitzustellen oder nach Fehlern wiederherzustellen. Wissenschaftler des TII führten umfangreiche technische Arbeiten durch, um maßgeschneiderte Clients zu entwickeln, die an die LLM-Ausbildung angepasst sind. Auf Basis des SageMaker Training SDK wurde ein Launcher-Client erstellt, um mehrere Funktionalitäten in einem Befehl zusammenzufassen, beispielsweise Codeversionierung, Docker-Image-Erstellung und Jobstart. Zusätzlich ein AWS Lambda Die serverlose Rechenfunktion wurde entwickelt, um Jobs nach Bedarf zu beobachten, zu überwachen und einzugreifen.

Verwendung von Slack-Bots für Prüfungen der Inferenzqualität

Gegen Ende des Trainings stellte das Team das Modell intern bereit SageMaker Hosting GPU-Endpunkt für Echtzeit-Interaktion. Das Team ging sogar so weit, einen Slack-Bot für den Dialog zu erstellen, um realistisches Feedback zu erhalten und qualitative Qualitätsprüfungen des Modells durchzuführen.

Trainings- und Leistungsüberwachung

Das Training eines LLM erfordert große Mengen an Rechenressourcen, einschließlich CPU-, GPU- und Speicherressourcen. Daher musste TII die Leistung und Leerlaufzeit des Trainingsauftrags überwachen, um eine optimale Nutzung der Rechenressourcen und deren Kosteneffizienz sicherzustellen.

Zum Aufbau einer automatisierten Überwachungslösung nutzte TII Amazon CloudWatch Alarme zur Überwachung der GPU-, CPU- und Speicherauslastung für die Trainingsjobs. CloudWatch sammelt Rohdaten und verarbeitet sie zu lesbaren Metriken nahezu in Echtzeit aus den zugrunde liegenden Containerinstanzen, die im SageMaker Training-Job verwendet werden. Danach legen wir Schwellenwerte für jede dieser Metriken fest, und wenn eine Metrik unter den Schwellenwert fällt, wird ein Alarm ausgelöst. Dieser Alarm benachrichtigt das TII-Team über die geringe Ressourcenauslastung und ermöglicht es ihm, Korrekturmaßnahmen zur Behebung von Einschränkungen bei der Ressourcenauslastung zu ergreifen.

Neben der Überwachung der Ressourcennutzung könnte TII auch die Leerlaufzeit der Trainingsjobressourcen überwachen. Wenn die Ressourcen des Schulungsauftrags über einen längeren Zeitraum ungenutzt blieben, könnte dies auf einen Engpass in jeder Phase des Schulungszyklus hinweisen und eine manuelle Untersuchung erforderlich machen. In einigen Fällen war die Ressourcenauslastung noch relativ optimal, aber der Trainingsprozess selbst kam nicht voran. Für diese Fälle hat TII CloudWatch-Alarme mit Lambda-Funktionen integriert, um die generierten Trainingsprotokolle abzufragen und zu lesen und dann automatische Maßnahmen zu ergreifen, die entweder auf dem generierten Fehler oder der Inaktivität des Protokollgenerierungsprozesses basieren (Cluster wird angehalten). Der Alarm löst eine Aktion zum Stoppen des Trainingsjobs aus, wodurch sichergestellt wird, dass TII keine unnötigen Kosten verursacht, wenn die Ressourcen nicht genutzt werden.

Zusammenfassung

Mit SageMaker gepaart mit proprietärer, maßgeschneiderter Innovation war TII in der Lage, ein Modell zu trainieren, das in mehreren Dimensionen auf dem neuesten Stand der Technik ist: technologischer Durchbruch, wissenschaftliche Qualität, Trainingsgeschwindigkeit und auch betriebliche Einfachheit.

„Unser Falcon LLM veranschaulicht die Technologieführerschaft der VAE und ebnet den Weg für KI-gestützte Innovationen in der Region. Im Einklang mit der nationalen KI-Strategie 2031 der VAE ist die Beteiligung der VAE an globalen technologischen Fortschritten wie Falcon LLM ein entscheidender Bestandteil auf unserem Weg zu einer wissensbasierten Wirtschaft. Die VAE beschließen, sich aktiv an der breiteren Diskussion zu beteiligen, indem sie in KI-Lösungen investieren und diese entwickeln, die dazu beitragen, neue wirtschaftliche, soziale und bildungsbezogene Möglichkeiten zu schaffen. Als Teil dieses Engagements unterstreicht die Open-Source-Veröffentlichung von Falcon LLM das Engagement der VAE, die Zusammenarbeit zu fördern, Transparenz zu fördern und Innovation und Forschung im Bereich KI zu unterstützen. Indem wir Falcon LLM als Open-Source-Lösung anbieten, wollen wir einen breiten Zugang zu seinen fortschrittlichen technischen Fähigkeiten ermöglichen und Forschern und Organisationen weltweit mehr Möglichkeiten bieten. Dieser bedeutende Schritt ist ein Beispiel für das Engagement der VAE, Fortschritte in der KI voranzutreiben, und festigt ihre Position als Marktführer in der globalen KI-Gemeinschaft. Zu den nächsten Schritten gehört es, zu weiteren Fortschritten im Bereich KI und fortschrittliche Technologien beizutragen, wobei neue Modelle am Horizont stehen, und die Nutzung fortschrittlicher KI-Technologie in Organisationen und Unternehmen der VAE zu fördern.“

– Dr. Almazrouei

Weitere Informationen zu Falcon LLM finden Sie auf der Website FalconLLM.tii.ae und die Modellkarte auf Hugging Face!


Über die Autoren

Dr. Ebtesam Almazrouei ist Executive Director – amtierender Chief AI Researcher der AI-Cross Center Unit und Projektleiter für LLM-Projekte am TII. Ihre Arbeit konzentriert sich auf die Bereitstellung von KI und fortschrittlichen Technologielösungen in verschiedenen Branchen, darunter Gesundheitswesen, Telekommunikation, Bildung, Energie und Sicherheit. Dr. Almazrouei spielt eine entscheidende Rolle beim Aufbau von LLMs und der Steigerung der Kapazitäten der VAE in diesem Bereich und leitet das Team hinter dem Aufbau von Falcon LLM. Darüber hinaus leitete sie die Entwicklung von Noor, dem bisher weltweit größten arabischen LLM.

Will Badr ist Senior Manager AI/ML Solutions Architects mit Sitz in Dubai (VAE) und arbeitet als Teil des globalen Amazon Machine Learning-Teams. Will setzt sich leidenschaftlich dafür ein, Technologie auf innovative Weise einzusetzen, um einen positiven Einfluss auf die Gemeinschaft zu haben. In seiner Freizeit geht er gerne tauchen, spielt Fußball und erkundet die Pazifikinseln.

Olivier Cruchant ist Machine Learning Specialist Solutions Architect bei AWS mit Sitz in Frankreich. Olivier hilft AWS-Kunden – von kleinen Startups bis hin zu großen Unternehmen – bei der Entwicklung und Bereitstellung von Anwendungen für maschinelles Lernen auf Produktionsniveau. In seiner Freizeit liest er gerne Forschungsarbeiten und erkundet mit Freunden und Familie die Wildnis.

spot_img

Neueste Intelligenz

spot_img