Zephyrnet-logo

Hoe Meta's Llama 3 de toekomst van AI zal beïnvloeden – IBM Blog

Datum:


Hoe Meta's Llama 3 de toekomst van AI zal beïnvloeden – IBM Blog



Persoon die 's nachts achterover in een stoel zit aan een bureau en een tablet leest terwijl het bureaublad voor hem verlicht is

In januari 2024 maakte Meta-CEO Mark Zuckerberg bekend een Instagram-video dat Meta AI onlangs is begonnen met het trainen van Llama 3. Deze nieuwste generatie van de Llama-familie van grote taalmodellen (LLM's) volgt de Llama 1-modellen (oorspronkelijk gestileerd als "LLaMA") die in februari 2023 zijn uitgebracht en de Llama 2-modellen die in juli zijn uitgebracht.

Hoewel specifieke details (zoals modelgroottes of multimodale mogelijkheden) nog niet zijn aangekondigd, gaf Zuckerberg aan dat Meta van plan is om de Llama Foundation-modellen open source te blijven maken.

Lees verder om te ontdekken wat we momenteel weten over Llama 3, en hoe dit de volgende golf van verbeteringen in generatieve AI-modellen kan beïnvloeden.

Wanneer komt Llama 3 uit?

Er is geen releasedatum aangekondigd, maar het is vermeldenswaard dat Llama 1 duurde drie maanden om te trainen en lama 2 duurde ongeveer zes maanden om te trainen. Mocht de volgende generatie modellen een vergelijkbare tijdlijn volgen, dan zouden ze ergens rond juli 2024 verschijnen.

Dat gezegd hebbende, bestaat er altijd de mogelijkheid dat Meta extra tijd vrijmaakt voor het verfijnen en zorgen voor een goede modeluitlijning. Het vergroten van de toegang tot generatieve AI-modellen geeft meer entiteiten meer macht dan alleen ondernemingen, startups en hobbyisten: naarmate open source-modellen krachtiger worden, is er meer zorg nodig om het risico te verkleinen dat modellen door slechte actoren voor kwaadaardige doeleinden worden gebruikt. In zijn aankondigingsvideo herhaalde Zuckerberg de inzet van Meta om “[modellen] op een verantwoorde en veilige manier te trainen.”

Zal Llama 3 open source zijn?

Terwijl Meta van geval tot geval gratis toegang tot de Llama 1-modellen verleende aan onderzoeksinstellingen voor uitsluitend niet-commerciële gebruiksgevallen, werden de Llama 2-code en modelgewichten vrijgegeven met een open licentie die commercieel gebruik mogelijk maakte voor elke organisatie met minder dan 700 miljoen maandelijkse actieve gebruikers. Hoewel er discussie is over de vraag of de licentie van Llama 2 voldoet de strikte technische definitie van ‘open source’, het wordt over het algemeen zo genoemd. Er is geen bewijs dat Llama 3 op een andere manier zal worden uitgebracht.

In zijn aankondiging en de daaropvolgende pers herhaalde Zuckerberg de inzet van Meta om licenties te openen en de toegang tot kunstmatige intelligentie (AI) te democratiseren. “Ik ben geneigd te denken dat een van de grotere uitdagingen hier zal zijn dat als je iets bouwt dat echt waardevol is, het uiteindelijk heel geconcentreerd wordt”, zegt Zuckerberg. in een interview met The Verge (link bevindt zich buiten ibm.com). “Terwijl, als je het opener maakt, dat een grote groep problemen aanpakt die kunnen voortkomen uit ongelijke toegang tot kansen en waarde. Dat is dus een groot deel van de hele open-sourcevisie.”

Zal Llama 3 kunstmatige algemene intelligentie (AGI) bereiken?

De aankondigingsvideo van Zuckerberg benadrukte Meta's langetermijndoel: bouwen kunstmatige algemene intelligentie (AGI), een theoretische ontwikkelingsfase van AI waarin modellen een holistische intelligentie zouden aantonen die gelijk is aan (of superieur is aan) die van de menselijke intelligentie.

“Het is duidelijker geworden dat de volgende generatie diensten het opbouwen van volledige algemene intelligentie vereist”, zegt Zuckerberg. “Het bouwen van de beste AI-assistenten, AI’s voor makers, AI’s voor bedrijven en meer – daarvoor is vooruitgang nodig op elk gebied van AI, van redeneren tot plannen, tot coderen, tot geheugen en andere cognitieve vaardigheden.”

Dit betekent niet noodzakelijkerwijs dat Llama 3 AGI zal bereiken (of zelfs zal proberen te bereiken). nog. Maar het betekent wel dat Meta opzettelijk hun LLM-ontwikkeling en ander AI-onderzoek benadert op een manier waarvan zij denken dat het AGI kan opleveren. uiteindelijk.

Zal Llama 3 multimodaal zijn?

Een opkomende trend op het gebied van kunstmatige intelligentie is multimodale AI: modellen die verschillende dataformaten kunnen begrijpen en gebruiken (of modaliteiten). In plaats van afzonderlijke modellen te ontwikkelen voor het verwerken van tekst-, code-, audio-, beeld- of zelfs videogegevens, kunnen nieuwe, ultramoderne modellen, zoals Google's Gemini of OpenAI's GPT-4V, en open source-toetreders zoals LLaVa (Large Language and Vision Assistant) ), Adept of Qwen-VL: kunnen naadloos schakelen tussen computer vision- en natuurlijke taalverwerkingstaken (NLP).

Hoewel Zuckerberg heeft bevestigd dat Llama 3, net als Llama 2, codegenererende mogelijkheden zal bevatten, ging hij niet expliciet in op andere multimodale mogelijkheden. Hij besprak echter wel hoe hij zich voorstelt dat AI de Metaverse kruist in zijn Llama 3-aankondigingsvideo: "Een bril is de ideale vormfactor om een ​​AI te laten zien wat je ziet en te horen wat je hoort", zei Zuckerberg, verwijzend naar Meta's Slimme bril van Ray-Ban. “Dus het is altijd beschikbaar om te helpen.”

Dit lijkt te impliceren dat Meta's plannen voor de Llama-modellen, zowel in de komende Llama 3-release als in de volgende generaties, de integratie van visuele en audiogegevens omvatten naast de tekst- en codegegevens die de Llama's al verwerken.

Dit lijkt ook een natuurlijke ontwikkeling in het streven naar AGI. “Je kunt erover kibbelen of algemene intelligentie verwant is aan intelligentie op menselijk niveau, of is het zoiets als human-plus, of is het een superintelligentie uit de verre toekomst”, zei hij in zijn interview met De rand. “Maar voor mij is het belangrijkste deel eigenlijk de breedte ervan, namelijk dat intelligentie al deze verschillende capaciteiten heeft waarbij je moet kunnen redeneren en intuïtie moet hebben.”

Hoe verhoudt Llama 3 zich tot Llama 2?

Zuckerberg kondigde ook aanzienlijke investeringen aan in trainingsinfrastructuur. Tegen het einde van 2024 wil Meta ongeveer 350,000 NVIDIA H100 GPU's hebben, wat Meta's totaal beschikbare rekenbronnen op "600,000 H100-equivalenten aan rekenkracht" zou brengen, als we de GPU's die ze al hebben meerekenen. Alleen Microsoft bezit momenteel een vergelijkbare voorraad rekenkracht.

Het is dus redelijk om te verwachten dat Llama 3 substantiële prestatieverbeteringen zal bieden ten opzichte van Llama 2-modellen, zelfs als de Llama 3-modellen niet groter zijn dan hun voorgangers. Zoals verondersteld in een artikel uit maart 2022 van Deepmind en vervolgens gedemonstreerd door modellen van Meta (evenals andere open source-modellen, zoals die van het in Frankrijk gevestigde Mistral), levert het trainen van kleinere modellen op meer data betere prestaties op dan het trainen van grotere modellen met minder data.[Iv] Llama 2 werd aangeboden in dezelfde maten als de Llama 1-modellen, met name in varianten met 7 miljard, 14 miljard en 70 miljard parameters, maar was vooraf getraind op 40% meer data.

Hoewel de Llama 3-modelgroottes nog niet zijn aangekondigd, is het waarschijnlijk dat ze het patroon van toenemende prestaties binnen 7-70 miljard parametermodellen zullen voortzetten, dat in eerdere generaties was vastgesteld. Meta's recente infrastructuurinvesteringen zullen zeker een nog robuustere pre-training voor modellen van elke omvang mogelijk maken.

Llama 2 verdubbelde ook die van Llama 1 contextlengte, wat betekent dat Llama 2 tweemaal zoveel context aan tokens kan 'onthouden' tijdens gevolgtrekking, dat wil zeggen tijdens het genereren van context of een voortdurende uitwisseling met een chatbot. Het is mogelijk, zij het onzeker, dat Llama 3 op dit vlak verdere vooruitgang zal bieden.

Hoe zal Llama 3 zich verhouden tot OpenAI's GPT-4?

Hoewel de kleinere LLaMA en Lama 2 modellen voldeden of overtroffen de prestaties van het grotere GPT-175-model met 3 miljard parameters in bepaalde benchmarks, maar kwamen niet overeen met de volledige mogelijkheden van de GPT-3.5- en GPT-4-modellen die in ChatGPT worden aangeboden.

Met hun komende generaties modellen lijkt Meta van plan om geavanceerde prestaties naar de open source-wereld te brengen. “Llama 2 was geen toonaangevend model, maar wel het beste open-sourcemodel”, vertelde hij. The Verge. “Met Llama 3 en verder is het onze ambitie om dingen te bouwen die aan de laatste stand van de techniek voldoen en uiteindelijk de leidende modellen in de industrie zullen zijn.”

Voorbereiding op lama 3

Met nieuwe basismodellen ontstaan ​​nieuwe mogelijkheden voor concurrentievoordeel door verbeterde apps, chatbots, workflows en automatiseringen. Voorblijven op de opkomende ontwikkelingen is de beste manier om te voorkomen dat je achterop raakt: het omarmen van nieuwe tools stelt organisaties in staat hun aanbod te differentiëren en zowel klanten als werknemers de beste ervaring te bieden.

Via haar samenwerking met HuggingFaceondersteunt IBM watsonx™ vele toonaangevende open source foundation-modellen, waaronder Meta's Llama 2-chat. Ons wereldwijde team van meer dan 20,000 AI-experts kan uw bedrijf helpen bepalen welke tools, technologieën en technieken het beste bij uw behoeften passen, zodat u efficiënt en verantwoord kunt opschalen.

Ontdek hoe IBM u helpt voorbereid te zijn op het versnellen van de AI-vooruitgang

Zet generatieve AI aan het werk met watsonx™

Was dit artikel behulpzaam?

JaNee


Meer van Kunstmatige intelligentie




IBM Tech Now: 26 februari 2024

<1 min gelezen - Welkom IBM Tech Now, onze videowebserie met het laatste en beste nieuws en aankondigingen in de wereld van technologie. Zorg ervoor dat u zich abonneert op ons YouTube-kanaal, zodat u op de hoogte wordt gehouden telkens wanneer er een nieuwe IBM Tech Now-video wordt gepubliceerd. IBM Tech Now: aflevering 92 In deze aflevering behandelen we de volgende onderwerpen: IBM watsonx bestellingen EDGE3 + watsonx G2 Best of Software Awards Blijf op de hoogte U kunt de IBM Blog-aankondigingen bekijken voor een volledige…




Introductie van gegevenswaarneming voor Azure Data Factory (ADF)

<1 min gelezen - In deze IBM Databand-productupdate kondigen we met trots onze nieuwe ondersteuningsgegevenswaarneming voor Azure Data Factory (ADF) aan. Klanten die ADF gebruiken als tool voor het orkestreren en transformeren van datapijplijnen, kunnen nu gebruikmaken van de mogelijkheden voor observatie en incidentbeheer van Databand om de betrouwbaarheid en kwaliteit van hun data te garanderen. Waarom Databand gebruiken met ADF? End-to-end pijplijnmonitoring: verzamel metagegevens, statistieken en logboeken van alle afhankelijke systemen. Trendanalyse: bouw historische trends op om proactief afwijkingen te detecteren en te waarschuwen voor potentiële…




Conversationele AI-gebruiksscenario's voor bedrijven

10 min gelezen - Tegenwoordig geven mensen niet alleen de voorkeur aan directe communicatie; ze verwachten het. Conversationele kunstmatige intelligentie (AI) loopt voorop bij het slechten van barrières tussen bedrijven en hun doelgroepen. Deze klasse van AI-gebaseerde tools, waaronder chatbots en virtuele assistenten, maakt naadloze, mensachtige en gepersonaliseerde uitwisselingen mogelijk. Naast de simplistische chatbubbel van conversationele AI ligt een complexe mix van technologieën, waarbij natuurlijke taalverwerking (NLP) centraal staat. NLP vertaalt de woorden van de gebruiker in machinehandelingen, waardoor machines vragen van klanten nauwkeurig kunnen begrijpen en erop kunnen reageren. Dit…

IBM-nieuwsbrieven

Ontvang onze nieuwsbrieven en onderwerpupdates die de nieuwste thought leadership en inzichten over opkomende trends bieden.

Abonneer nu

Meer nieuwsbrieven

spot_img

Laatste intelligentie

spot_img