In januari 2024 maakte Meta-CEO Mark Zuckerberg bekend een Instagram-video dat Meta AI onlangs is begonnen met het trainen van Llama 3. Deze nieuwste generatie van de Llama-familie van grote taalmodellen (LLM's) volgt de Llama 1-modellen (oorspronkelijk gestileerd als "LLaMA") die in februari 2023 zijn uitgebracht en de Llama 2-modellen die in juli zijn uitgebracht.
Hoewel specifieke details (zoals modelgroottes of multimodale mogelijkheden) nog niet zijn aangekondigd, gaf Zuckerberg aan dat Meta van plan is om de Llama Foundation-modellen open source te blijven maken.
Lees verder om te ontdekken wat we momenteel weten over Llama 3, en hoe dit de volgende golf van verbeteringen in generatieve AI-modellen kan beïnvloeden.
Wanneer komt Llama 3 uit?
Er is geen releasedatum aangekondigd, maar het is vermeldenswaard dat Llama 1 duurde drie maanden om te trainen en lama 2 duurde ongeveer zes maanden om te trainen. Mocht de volgende generatie modellen een vergelijkbare tijdlijn volgen, dan zouden ze ergens rond juli 2024 verschijnen.
Dat gezegd hebbende, bestaat er altijd de mogelijkheid dat Meta extra tijd vrijmaakt voor het verfijnen en zorgen voor een goede modeluitlijning. Het vergroten van de toegang tot generatieve AI-modellen geeft meer entiteiten meer macht dan alleen ondernemingen, startups en hobbyisten: naarmate open source-modellen krachtiger worden, is er meer zorg nodig om het risico te verkleinen dat modellen door slechte actoren voor kwaadaardige doeleinden worden gebruikt. In zijn aankondigingsvideo herhaalde Zuckerberg de inzet van Meta om “[modellen] op een verantwoorde en veilige manier te trainen.”
Zal Llama 3 open source zijn?
Terwijl Meta van geval tot geval gratis toegang tot de Llama 1-modellen verleende aan onderzoeksinstellingen voor uitsluitend niet-commerciële gebruiksgevallen, werden de Llama 2-code en modelgewichten vrijgegeven met een open licentie die commercieel gebruik mogelijk maakte voor elke organisatie met minder dan 700 miljoen maandelijkse actieve gebruikers. Hoewel er discussie is over de vraag of de licentie van Llama 2 voldoet de strikte technische definitie van ‘open source’, het wordt over het algemeen zo genoemd. Er is geen bewijs dat Llama 3 op een andere manier zal worden uitgebracht.
In zijn aankondiging en de daaropvolgende pers herhaalde Zuckerberg de inzet van Meta om licenties te openen en de toegang tot kunstmatige intelligentie (AI) te democratiseren. “Ik ben geneigd te denken dat een van de grotere uitdagingen hier zal zijn dat als je iets bouwt dat echt waardevol is, het uiteindelijk heel geconcentreerd wordt”, zegt Zuckerberg. in een interview met The Verge (link bevindt zich buiten ibm.com). “Terwijl, als je het opener maakt, dat een grote groep problemen aanpakt die kunnen voortkomen uit ongelijke toegang tot kansen en waarde. Dat is dus een groot deel van de hele open-sourcevisie.”
Zal Llama 3 kunstmatige algemene intelligentie (AGI) bereiken?
De aankondigingsvideo van Zuckerberg benadrukte Meta's langetermijndoel: bouwen kunstmatige algemene intelligentie (AGI), een theoretische ontwikkelingsfase van AI waarin modellen een holistische intelligentie zouden aantonen die gelijk is aan (of superieur is aan) die van de menselijke intelligentie.
“Het is duidelijker geworden dat de volgende generatie diensten het opbouwen van volledige algemene intelligentie vereist”, zegt Zuckerberg. “Het bouwen van de beste AI-assistenten, AI’s voor makers, AI’s voor bedrijven en meer – daarvoor is vooruitgang nodig op elk gebied van AI, van redeneren tot plannen, tot coderen, tot geheugen en andere cognitieve vaardigheden.”
Dit betekent niet noodzakelijkerwijs dat Llama 3 AGI zal bereiken (of zelfs zal proberen te bereiken). nog. Maar het betekent wel dat Meta opzettelijk hun LLM-ontwikkeling en ander AI-onderzoek benadert op een manier waarvan zij denken dat het AGI kan opleveren. uiteindelijk.
Zal Llama 3 multimodaal zijn?
Een opkomende trend op het gebied van kunstmatige intelligentie is multimodale AI: modellen die verschillende dataformaten kunnen begrijpen en gebruiken (of modaliteiten). In plaats van afzonderlijke modellen te ontwikkelen voor het verwerken van tekst-, code-, audio-, beeld- of zelfs videogegevens, kunnen nieuwe, ultramoderne modellen, zoals Google's Gemini of OpenAI's GPT-4V, en open source-toetreders zoals LLaVa (Large Language and Vision Assistant) ), Adept of Qwen-VL: kunnen naadloos schakelen tussen computer vision- en natuurlijke taalverwerkingstaken (NLP).
Hoewel Zuckerberg heeft bevestigd dat Llama 3, net als Llama 2, codegenererende mogelijkheden zal bevatten, ging hij niet expliciet in op andere multimodale mogelijkheden. Hij besprak echter wel hoe hij zich voorstelt dat AI de Metaverse kruist in zijn Llama 3-aankondigingsvideo: "Een bril is de ideale vormfactor om een AI te laten zien wat je ziet en te horen wat je hoort", zei Zuckerberg, verwijzend naar Meta's Slimme bril van Ray-Ban. “Dus het is altijd beschikbaar om te helpen.”
Dit lijkt te impliceren dat Meta's plannen voor de Llama-modellen, zowel in de komende Llama 3-release als in de volgende generaties, de integratie van visuele en audiogegevens omvatten naast de tekst- en codegegevens die de Llama's al verwerken.
Dit lijkt ook een natuurlijke ontwikkeling in het streven naar AGI. “Je kunt erover kibbelen of algemene intelligentie verwant is aan intelligentie op menselijk niveau, of is het zoiets als human-plus, of is het een superintelligentie uit de verre toekomst”, zei hij in zijn interview met De rand. “Maar voor mij is het belangrijkste deel eigenlijk de breedte ervan, namelijk dat intelligentie al deze verschillende capaciteiten heeft waarbij je moet kunnen redeneren en intuïtie moet hebben.”
Hoe verhoudt Llama 3 zich tot Llama 2?
Zuckerberg kondigde ook aanzienlijke investeringen aan in trainingsinfrastructuur. Tegen het einde van 2024 wil Meta ongeveer 350,000 NVIDIA H100 GPU's hebben, wat Meta's totaal beschikbare rekenbronnen op "600,000 H100-equivalenten aan rekenkracht" zou brengen, als we de GPU's die ze al hebben meerekenen. Alleen Microsoft bezit momenteel een vergelijkbare voorraad rekenkracht.
Het is dus redelijk om te verwachten dat Llama 3 substantiële prestatieverbeteringen zal bieden ten opzichte van Llama 2-modellen, zelfs als de Llama 3-modellen niet groter zijn dan hun voorgangers. Zoals verondersteld in een artikel uit maart 2022 van Deepmind en vervolgens gedemonstreerd door modellen van Meta (evenals andere open source-modellen, zoals die van het in Frankrijk gevestigde Mistral), levert het trainen van kleinere modellen op meer data betere prestaties op dan het trainen van grotere modellen met minder data.[Iv] Llama 2 werd aangeboden in dezelfde maten als de Llama 1-modellen, met name in varianten met 7 miljard, 14 miljard en 70 miljard parameters, maar was vooraf getraind op 40% meer data.
Hoewel de Llama 3-modelgroottes nog niet zijn aangekondigd, is het waarschijnlijk dat ze het patroon van toenemende prestaties binnen 7-70 miljard parametermodellen zullen voortzetten, dat in eerdere generaties was vastgesteld. Meta's recente infrastructuurinvesteringen zullen zeker een nog robuustere pre-training voor modellen van elke omvang mogelijk maken.
Llama 2 verdubbelde ook die van Llama 1 contextlengte, wat betekent dat Llama 2 tweemaal zoveel context aan tokens kan 'onthouden' tijdens gevolgtrekking, dat wil zeggen tijdens het genereren van context of een voortdurende uitwisseling met een chatbot. Het is mogelijk, zij het onzeker, dat Llama 3 op dit vlak verdere vooruitgang zal bieden.
Hoe zal Llama 3 zich verhouden tot OpenAI's GPT-4?
Hoewel de kleinere LLaMA en Lama 2 modellen voldeden of overtroffen de prestaties van het grotere GPT-175-model met 3 miljard parameters in bepaalde benchmarks, maar kwamen niet overeen met de volledige mogelijkheden van de GPT-3.5- en GPT-4-modellen die in ChatGPT worden aangeboden.
Met hun komende generaties modellen lijkt Meta van plan om geavanceerde prestaties naar de open source-wereld te brengen. “Llama 2 was geen toonaangevend model, maar wel het beste open-sourcemodel”, vertelde hij. The Verge. “Met Llama 3 en verder is het onze ambitie om dingen te bouwen die aan de laatste stand van de techniek voldoen en uiteindelijk de leidende modellen in de industrie zullen zijn.”
Voorbereiding op lama 3
Met nieuwe basismodellen ontstaan nieuwe mogelijkheden voor concurrentievoordeel door verbeterde apps, chatbots, workflows en automatiseringen. Voorblijven op de opkomende ontwikkelingen is de beste manier om te voorkomen dat je achterop raakt: het omarmen van nieuwe tools stelt organisaties in staat hun aanbod te differentiëren en zowel klanten als werknemers de beste ervaring te bieden.
Via haar samenwerking met HuggingFaceondersteunt IBM watsonx™ vele toonaangevende open source foundation-modellen, waaronder Meta's Llama 2-chat. Ons wereldwijde team van meer dan 20,000 AI-experts kan uw bedrijf helpen bepalen welke tools, technologieën en technieken het beste bij uw behoeften passen, zodat u efficiënt en verantwoord kunt opschalen.
Ontdek hoe IBM u helpt voorbereid te zijn op het versnellen van de AI-vooruitgang
Zet generatieve AI aan het werk met watsonx™
Was dit artikel behulpzaam?
JaNee
Meer van Kunstmatige intelligentie
IBM-nieuwsbrieven
Ontvang onze nieuwsbrieven en onderwerpupdates die de nieuwste thought leadership en inzichten over opkomende trends bieden.
Abonneer nu
Meer nieuwsbrieven
- Door SEO aangedreven content en PR-distributie. Word vandaag nog versterkt.
- PlatoData.Network Verticale generatieve AI. Versterk jezelf. Toegang hier.
- PlatoAiStream. Web3-intelligentie. Kennis versterkt. Toegang hier.
- PlatoESG. carbon, CleanTech, Energie, Milieu, Zonne, Afvalbeheer. Toegang hier.
- Plato Gezondheid. Intelligentie op het gebied van biotech en klinische proeven. Toegang hier.
- Bron: https://www.ibm.com/blog/llama-3/