Zephyrnet-logo

Waarom Copilot voorlopig alleen lokaal op AI-pc's zal draaien

Datum:

Opmerking De definitie van Microsoft van wat wel en niet een AI-pc is, begint vorm te krijgen. Met de nieuwste versie van Windows, een speciale Copilot-sleutel en een NPU die minstens 40 biljoen bewerkingen per seconde kan uitvoeren, kunt u Microsoft Copilot binnenkort lokaal op uw computer uitvoeren.

Redmond eisen voor zijn AI-model op Windows werden officieel gemaakt door Intel – een van de sterkste cheerleaders in de AI-pc-categorie – tijdens de beurs van de chipgigant AI-top deze week in Taipei.

Het lokaal uitvoeren van een groot taalmodel (LLM) heeft enkele intrinsieke voordelen. Eindgebruikers zouden een lagere latentie en dus betere reactietijden moeten hebben, omdat vragen niet van en naar een extern datacenter hoeven te worden verzonden, plus in theorie meer privacy. Voor Microsoft zorgt het verschuiven van een groter deel van de AI-werklast naar de apparaten van klanten ervoor dat er eigen middelen vrijkomen voor andere taken, zoals het helpen trainen van het volgende OpenAI-model of het aanbieden ervan als een cloud-API.

Microsoft hoopt zijn Copilot LLM uiteindelijk volledig op de NPU's, of neurale verwerkingseenheden, in de Windows AI-pc's van mensen te laten draaien, te oordelen naar opmerkingen blijkbaar gemaakt door Intel-managers op de top. We kunnen ons voorstellen dat de x86-goliath die grens verlegt om iedereen ervan te overtuigen dat zijn silicium krachtig genoeg is om de spullen van Redmond thuis of op kantoor te laten draaien.

Hoewel het idee om Copilot los te koppelen van de navelstreng van Azure voor sommigen aantrekkelijk kan zijn, lijkt niet iedereen fan te zijn van Clippy geïncarneerd en in de nabije toekomst zal in ieder geval een deel van de verwerking vrijwel zeker in de cloud plaatsvinden.

Intel-managers hebben het al gezegd: snellere hardware zal het mogelijk maken dat meer “elementen” van Copilot lokaal kunnen draaien. Met andere woorden: je zult voor tenminste een deel van de functionaliteit nog steeds afhankelijk zijn van een netwerkverbinding, en de rest regelt de AI-pc zelf.

De reden hoeft niet zo’n grote verrassing te zijn. Deze AI-pc's hebben beperkte hulpbronnen en het model dat Copilot aandrijft – OpenAI's GPT-4 – is enorm. We weten niet precies hoe groot de versie is die Microsoft gebruikt, maar schattingen schat het volledige GPT-4-model op ongeveer 1.7 biljoen parameters. Zelfs met kwantisering of het draaien van het model op INT4 heb je ongeveer 900 GB geheugen nodig.

Hoe wij denken dat het gaat werken

GPT-4 is een zogenaamd mix-of-experts-model. In een notendop betekent dit dat het feitelijk is samengesteld uit een aantal kleinere, gespecialiseerde, vooraf getrainde modellen waarnaar vragen worden gerouteerd. Door meerdere modellen te optimaliseren voor het genereren van tekst, samenvattingen, het maken van code, enzovoort, kunnen de prestaties bij het infereren worden verbeterd, omdat niet het hele model hoeft te worden uitgevoerd om een ​​taak te voltooien.

Intel's gebruik van de term 'elementen' om de lokale Copilot-functies te beschrijven suggereert dat sommige van deze experts zouden kunnen worden vervangen door kleinere, wendbare modellen die op laptophardware kunnen draaien. Zoals we eerder hebben onderzocht, is bestaande persoonlijke hardware meer dan in staat om kleinere AI-modellen van bijvoorbeeld Mistral of Meta uit te voeren.

Toevallig heeft Microsoft onlangs gepompt €15 miljoen ($16.3 miljoen) in de Franse mini-modelbouwer Mistral AI, met plannen om zijn werk beschikbaar te maken voor Azure-klanten. Met slechts 7 miljard parameters is de Mistral-7B zeker klein genoeg om comfortabel in het geheugen van een AI-pc te passen, waarbij hij ongeveer 4 GB geheugen nodig heeft bij gebruik van 4-bit kwantisering.

En dat is voor een model voor algemeen gebruik. Het is denkbaar dat je nog kleinere modellen kunt gebruiken die zijn afgestemd op het genereren van broncode en die alleen in het geheugen worden geladen wanneer de applicatie, bijvoorbeeld Visual Studio Code, wordt gestart en een actief Github Copilot-abonnement wordt gedetecteerd. Vergeet niet dat Copilot meer is dan alleen een chatbot; het is een reeks AI-functies die in de besturingssysteem- en softwarebibliotheek van Microsoft worden ingebakken.

Redmond heeft niet gezegd hoeveel geheugen de AI-pc-specificatie nodig heeft, maar in onze ervaring met lokale LLM's16 GB snelle DDR5 zou voldoende moeten zijn.

Welke route Microsoft ook kiest, de combinatie van lokale en externe modellen kan tot interessant gedrag leiden. We weten nog niet onder welke omstandigheden deze lokale modellen het zullen overnemen, maar het Microsoft-bedrijfsaanbod van Windows-apparaten Pavan Davuluri heeft gesuggereerd dat de mix dynamisch kan zijn.

“We willen een verschuiving kunnen bewerkstelligen tussen de cloud en de client om het beste computergebruik in beide werelden te bieden”, zei hij op het podium tijdens AMD's Advancing AI gebeurtenis in december. “Het combineert de voordelen van lokaal computergebruik, zaken als verbeterde privacy, responsiviteit en latentie met de kracht van de cloud, krachtige modellen, grote datasets en platformonafhankelijke gevolgtrekkingen.”

Als zodanig kunnen we een aantal scenario’s zien waarin Microsoft lokale AI kan gebruiken. De eerste is het ontlasten van werk van Microsoft-servers en het verbeteren van de responstijden. Naarmate de hardware verbetert, kunnen meer Copilot-functies uit de cloud naar gebruikersapparaten worden gepusht.

De tweede zou zijn om het als een terugvalmogelijkheid te hebben in het geval van netwerkverstoringen. U kunt zich voorstellen dat uw AI-pc dommer wordt in plaats van helemaal te stoppen wanneer hij van het net is afgesloten.

Hardwarebeperkingen

Voordat je te enthousiast wordt over AI-pc's met een gespleten brein die off-grid-manifesten opstellen: er zijn momenteel geen machines die aan de hardwarevereisten voldoen, en dat komt niet door het ontbreken van een Copilot-sleutel.

Het probleem is dat NPU's nog steeds relatief nieuw zijn in x86-silicium, en wat er wel is, is lang niet krachtig genoeg. AMD was een van de eersten die begin 2023 een NPU aan zijn mobiele processors toevoegde met de lancering van zijn Ryzen 7040 serie chips.

Die line-up kreeg in december een klokstoot tijdens het Advancing AI-evenement van House of Zen. AMD bracht zijn NPU's ook naar de desktop met de lancering van zijn 8000G APU's op CES in januari van dit jaar.

Intel heeft zijn speciale AI-acceleratorblokken uitgerold met de lancering ervan Meteoormeer microprocessoronderdelen eind december. Deze Core Ultra-chips zijn voorzien van een NPU die is afgeleid van Intel's Movidius vision processing unit (VPU), die Intel gedemonstreerd vorig jaar tijdens het Innovation-evenement een verscheidenheid aan werklasten uitgevoerd.

Helaas zijn chips slechts in staat tot 10 tot 16 biljoen (doorgaans INT4) bewerkingen per seconde, ver onder de 40 TOPS-specificaties van Microsoft. Dat betekent dat de meeste zogenaamde AI-pc's op de markt niet aan de eisen zullen voldoen – niet zonder op de GPU te leunen om het verschil te compenseren.

Zowel Intel als AMD hebben capabelere chips met respectievelijk Lunar Lake- en Strix Point-silicium. Op de korte termijn lijkt het er echter op dat Qualcomm de markt in het nauw zal drijven.

Notebooks met Qualcomm's Snapdragon X Elite mobiele processors verschijnen ergens medio 2024 en zullen een NPU bevatten die 45 TOPS kan halen. Gecombineerd met een Adreno GPU die in staat is tot 4.6 teraFLOPS aan FP32-prestaties, zegt Qualcomm dat het onderdeel AI-modellen tot 13 miljard parameters volledig op het apparaat kan uitvoeren en 30 tokens per seconde kan genereren bij het uitvoeren van kleinere LLM's met 7 miljard parameters.

Naarmate pc's met beter presterende NPU's en grotere geheugenopslag arriveren, en kleine modellen steeds capabeler worden, vermoeden we dat Microsoft meer functionaliteit naar lokale apparaten zal gaan overbrengen - zodra de hardware dit aankan. ®

spot_img

VC Café

LifeSciVC

Laatste intelligentie

VC Café

LifeSciVC

spot_img