Zephyrnet-Logo

Wie Metas Llama 3 die Zukunft der KI beeinflussen wird – IBM Blog

Datum:


Wie Metas Llama 3 die Zukunft der KI beeinflussen wird – IBM Blog



Eine Person sitzt nachts im Stuhl am Schreibtisch und liest ein Tablet, während der Schreibtisch vor ihr beleuchtet ist

Im Januar 2024 gab Meta-CEO Mark Zuckerberg bekannt ein Instagram-Video dass Meta AI vor kurzem mit dem Training von Llama 3 begonnen hat. Diese neueste Generation der LLaMa-Familie großer Sprachmodelle (LLMs) folgt den im Februar 1 veröffentlichten Llama 2023-Modellen (ursprünglich als „LLaMA“ stilisiert) und den im Juli veröffentlichten Llama 2-Modellen.

Obwohl spezifische Details (wie Modellgrößen oder multimodale Fähigkeiten) noch nicht bekannt gegeben wurden, deutete Zuckerberg Metas Absicht an, die Llama-Foundation-Modelle weiterhin als Open Source bereitzustellen.

Lesen Sie weiter, um zu erfahren, was wir derzeit über Llama 3 wissen und wie es sich auf die nächste Welle von Fortschritten bei generativen KI-Modellen auswirken könnte.

Wann erscheint Llama 3?

Es wurde kein Veröffentlichungsdatum bekannt gegeben, aber es ist erwähnenswert, dass Llama 1 Die Ausbildung dauerte drei Monate und Lama 2 Die Ausbildung dauerte etwa sechs Monate. Sollte die nächste Modellgeneration einem ähnlichen Zeitplan folgen, würden sie etwa im Juli 2024 auf den Markt kommen.

Allerdings besteht immer die Möglichkeit, dass Meta zusätzliche Zeit für die Feinabstimmung und die Sicherstellung der richtigen Modellausrichtung aufwendet. Der zunehmende Zugang zu generativen KI-Modellen ermöglicht mehr Unternehmen als nur Unternehmen, Start-ups und Hobbyanwendern: Da Open-Source-Modelle immer leistungsfähiger werden, ist mehr Sorgfalt erforderlich, um das Risiko zu verringern, dass Modelle von böswilligen Akteuren für böswillige Zwecke verwendet werden. In seinem Ankündigungsvideo bekräftigte Zuckerberg Metas Engagement, „[Models] verantwortungsbewusst und sicher auszubilden“.

Wird Llama 3 Open Source sein?

Während Meta Forschungseinrichtungen von Fall zu Fall kostenlosen Zugang zu den Llama 1-Modellen für ausschließlich nichtkommerzielle Anwendungsfälle gewährte, wurden der Llama 2-Code und die Modellgewichte mit einer offenen Lizenz veröffentlicht, die eine kommerzielle Nutzung für jede Organisation mit weniger Gewichten ermöglicht über 700 Millionen monatlich aktive Nutzer. Zwar gibt es Debatten darüber, ob die Lizenz von Llama 2 erfüllt wird die strenge technische Definition von „Open Source“, es wird allgemein als solches bezeichnet. Es gibt keine verfügbaren Beweise dafür, dass Llama 3 anders veröffentlicht wird.

In seiner Ankündigung und der anschließenden Presse bekräftigte Zuckerberg Metas Engagement für offene Lizenzen und die Demokratisierung des Zugangs zu künstlicher Intelligenz (KI). „Ich denke eher, dass eine der größeren Herausforderungen hier darin bestehen wird, dass, wenn man etwas wirklich Wertvolles baut, es am Ende sehr konzentriert wird“, sagte Zuckerberg in einem Interview mit The Verge (Link befindet sich außerhalb von ibm.com). „Wenn man es hingegen offener macht, dann wird damit eine große Klasse von Problemen angegangen, die durch ungleichen Zugang zu Chancen und Werten entstehen können. Das ist also ein großer Teil der gesamten Open-Source-Vision.“

Wird Llama 3 künstliche allgemeine Intelligenz (AGI) erreichen?

Zuckerbergs Ankündigungsvideo betonte Metas langfristiges Aufbauziel Künstliche allgemeine Intelligenz (AGI), eine theoretische Entwicklungsstufe der KI, in der Modelle eine ganzheitliche Intelligenz aufweisen würden, die der menschlichen Intelligenz entspricht (oder diese übertrifft).

„Es ist deutlicher geworden, dass die nächste Generation von Diensten den Aufbau umfassender allgemeiner Intelligenz erfordert“, sagt Zuckerberg. „Die Entwicklung der besten KI-Assistenten, KIs für YouTuber, KIs für Unternehmen und mehr – das erfordert Fortschritte in allen Bereichen der KI, von Argumentation über Planung und Codierung bis hin zu Gedächtnis und anderen kognitiven Fähigkeiten.“

Dies bedeutet nicht unbedingt, dass Llama 3 AGI erreichen wird (oder auch nur versuchen wird, dies zu erreichen). noch. Es bedeutet jedoch, dass Meta seine LLM-Entwicklung und andere KI-Forschung bewusst auf eine Weise angeht, von der sie glauben, dass sie zu AGI führen könnte schließlich.

Wird Llama 3 multimodal sein?

Ein Auftauchen Trend in der künstlichen Intelligenz is multimodale KI: Modelle, die verschiedene Datenformate (bzw Modalitäten). Anstatt separate Modelle zur Verarbeitung von Text-, Code-, Audio-, Bild- oder sogar Videodaten zu entwickeln, werden neue, hochmoderne Modelle wie Googles Gemini oder OpenAIs GPT-4V sowie Open-Source-Neulinge wie LLaVa (Large Language and Vision Assistant) entwickelt ), Adept oder Qwen-VL – können nahtlos zwischen Computer Vision und NLP-Aufgaben (Natural Language Processing) wechseln.

Während Zuckerberg bestätigt hat, dass Llama 3 wie auch Llama 2 über Funktionen zur Codegenerierung verfügen wird, ging er nicht explizit auf andere multimodale Funktionen ein. Allerdings diskutierte er in seinem Ankündigungsvideo zu Llama 3, wie er sich die Überschneidung von KI mit dem Metaversum vorstellt: „Brillen sind der ideale Formfaktor, um eine KI sehen zu lassen, was man sieht, und zu hören, was man hört“, sagte Zuckerberg in Bezug auf Metas Ray-Ban-Datenbrille. „Es ist also immer erreichbar, um zu helfen.“

Dies scheint zu implizieren, dass Metas Pläne für die Llama-Modelle, sei es in der kommenden Llama 3-Version oder in den folgenden Generationen, die Integration von visuellen und Audiodaten neben den Text- und Codedaten beinhalten, die die LLMs bereits verarbeiten.

Dies scheint auch eine natürliche Entwicklung im Streben nach AGI zu sein. „Man kann darüber streiten, ob allgemeine Intelligenz mit Intelligenz auf menschlicher Ebene vergleichbar ist, oder ob es sich um eine menschliche Plus-Intelligenz handelt oder ob es sich um eine Superintelligenz in ferner Zukunft handelt“, sagte er in seinem Interview mit Der Rand. „Aber für mich ist der entscheidende Teil tatsächlich die Breite des Ganzen, nämlich dass Intelligenz über all diese unterschiedlichen Fähigkeiten verfügt, bei denen man in der Lage sein muss, vernünftig zu denken und Intuition zu haben.“

Wie wird sich Llama 3 mit Llama 2 vergleichen?

Zuckerberg kündigte außerdem erhebliche Investitionen in die Ausbildungsinfrastruktur an. Bis Ende 2024 will Meta über etwa 350,000 NVIDIA H100-GPUs verfügen, was die gesamten verfügbaren Rechenressourcen von Meta unter Einbeziehung der bereits vorhandenen GPUs auf „600,000 H100-Rechenäquivalente“ erhöhen würde. Derzeit besitzt nur Microsoft ein vergleichbarer Vorrat an Rechenleistung.

Daher kann man davon ausgehen, dass Llama 3 im Vergleich zu Llama 2-Modellen erhebliche Leistungssteigerungen bietet, auch wenn die Llama 3-Modelle nicht größer als ihre Vorgänger sind. Wie vermutet in einem Artikel von Deepmind vom März 2022 und anschließend durch Modelle von Meta (sowie andere Open-Source-Modelle, wie die des in Frankreich ansässigen Mistral) demonstriert, führt das Training kleinerer Modelle mit mehr Daten zu einer höheren Leistung als das Training größerer Modelle mit weniger Daten.[IV] Llama 2 wurde in den gleichen Größen wie die Llama 1-Modelle angeboten – insbesondere in Varianten mit 7 Milliarden, 14 Milliarden und 70 Milliarden Parametern –, wurde jedoch mit 40 % mehr Daten vorab trainiert.

Obwohl die Modellgrößen von Llama 3 noch nicht bekannt gegeben wurden, ist es wahrscheinlich, dass sie das in früheren Generationen etablierte Muster der Leistungssteigerung innerhalb von Modellen mit 7 bis 70 Milliarden Parametern fortsetzen werden. Die jüngsten Infrastrukturinvestitionen von Meta werden sicherlich ein noch robusteres Vortraining für Modelle jeder Größe ermöglichen.

Lama 2 hat auch Lama 1 verdoppelt Kontextlänge, was bedeutet, dass sich Llama 2 während der Inferenz – also während der Kontextgenerierung oder eines laufenden Austauschs mit einem Chatbot – doppelt so viele Kontext-Tokens „merken“ kann. Es ist möglich, wenn auch ungewiss, dass Llama 3 diesbezüglich weitere Fortschritte bringen wird.

Wie wird sich Llama 3 mit GPT-4 von OpenAI vergleichen lassen?

Während die kleineres LLaMA und Lama 2 Modelle Obwohl sie in bestimmten Benchmarks die Leistung des größeren GPT-175-Modells mit 3 Milliarden Parametern erreichten oder übertrafen, erreichten sie nicht die volle Leistungsfähigkeit der in ChatGPT angebotenen GPT-3.5- und GPT-4-Modelle.

Mit den kommenden Modellgenerationen scheint Meta bestrebt zu sein, Spitzenleistung in die Open-Source-Welt zu bringen. „Llama 2 war kein branchenführendes Modell, aber es war das beste Open-Source-Modell“, sagte er The Verge. „Mit Llama 3 und darüber hinaus ist es unser Ziel, Dinge zu bauen, die auf dem neuesten Stand der Technik sind und schließlich zu den führenden Modellen der Branche werden.“

Vorbereitung auf Lama 3

Mit neuen Gründungsmodellen ergeben sich neue Möglichkeiten für Wettbewerbsvorteile durch verbesserte Apps, Chatbots, Workflows und Automatisierungen. Den aufkommenden Entwicklungen immer einen Schritt voraus zu sein, ist der beste Weg, nicht ins Hintertreffen zu geraten: Die Einführung neuer Tools ermöglicht es Unternehmen, ihre Angebote zu differenzieren und Kunden und Mitarbeitern gleichermaßen das beste Erlebnis zu bieten.

Durch sein Partnerschaft mit HuggingFace, IBM watsonx™ unterstützt viele branchenführende Open-Source-Grundlagenmodelle – einschließlich Metas Llama 2-Chat. Unser globales Team aus über 20,000 KI-Experten kann Ihrem Unternehmen dabei helfen, herauszufinden, welche Tools, Technologien und Techniken am besten zu Ihren Anforderungen passen, um sicherzustellen, dass Sie effizient und verantwortungsbewusst skalieren.

Erfahren Sie, wie IBM Sie bei der Vorbereitung auf den beschleunigten KI-Fortschritt unterstützt

Nutzen Sie generative KI mit watsonx™

War dieser Artikel hilfreich?

JaNein


Mehr von Künstliche Intelligenz




IBM Tech Now: 26. Februar 2024

<1 min lesen - ​Willkommen bei IBM Tech Now, unserer Video-Webserie mit den neuesten und besten Neuigkeiten und Ankündigungen aus der Welt der Technologie. Stellen Sie sicher, dass Sie unseren YouTube-Kanal abonnieren, um jedes Mal benachrichtigt zu werden, wenn ein neues IBM Tech Now-Video veröffentlicht wird. IBM Tech Now: Episode 92 In dieser Episode behandeln wir die folgenden Themen: IBM watsonx bestellt EDGE3 + watsonx G2 Best of Software Awards. Bleiben Sie auf dem Laufenden. Eine vollständige Übersicht finden Sie in den IBM Blog-Ankündigungen.




Einführung von Data Observability für Azure Data Factory (ADF)

<1 min lesen - Wir freuen uns, in diesem IBM Databand-Produktupdate unsere neue Support-Datenbeobachtbarkeit für Azure Data Factory (ADF) bekannt zu geben. Kunden, die ADF als Orchestrierungs- und Datentransformationstool für Datenpipelines verwenden, können jetzt die Observability- und Incident-Management-Funktionen von Databand nutzen, um die Zuverlässigkeit und Qualität ihrer Daten sicherzustellen. Warum Databand mit ADF verwenden? End-to-End-Pipeline-Überwachung: Sammeln Sie Metadaten, Metriken und Protokolle von allen abhängigen Systemen. Trendanalyse: Erstellen Sie historische Trends, um Anomalien proaktiv zu erkennen und bei potenziellen… zu warnen.




Konversations-KI-Anwendungsfälle für Unternehmen

10 min lesen - Heutzutage bevorzugen die Menschen nicht nur sofortige Kommunikation; sie erwarten es. Konversationelle künstliche Intelligenz (KI) ist führend beim Abbau von Barrieren zwischen Unternehmen und ihren Zielgruppen. Diese Klasse von KI-basierten Tools, darunter Chatbots und virtuelle Assistenten, ermöglicht einen nahtlosen, menschenähnlichen und personalisierten Austausch. Hinter der simplen Chat-Blase der Konversations-KI verbirgt sich eine komplexe Mischung von Technologien, wobei die Verarbeitung natürlicher Sprache (NLP) im Mittelpunkt steht. NLP übersetzt die Worte des Benutzers in maschinelle Aktionen und ermöglicht es Maschinen, Kundenanfragen genau zu verstehen und darauf zu reagieren. Das…

IBM Newsletter

Erhalten Sie unsere Newsletter und Themenaktualisierungen, die die neuesten Gedanken und Einblicke in neue Trends liefern.

Abonniere jetzt

Weitere Newsletter

spot_img

Neueste Intelligenz

spot_img