Zephyrnet-logotyp

Löftet om Edge AI och metoder för effektiv adoption – KDnuggets

Datum:

Löftet om Edge AI och metoder för effektiv adoption
Bild av redaktör
 

Det nuvarande tekniska landskapet upplever en avgörande förändring mot edge computing, sporrad av snabba framsteg inom generativ AI (GenAI) och traditionella AI-arbetsbelastningar. Dessa AI-arbetsbelastningar är historiskt beroende av molnberäkning och möter nu gränserna för molnbaserad AI, inklusive oro över datasäkerhet, suveränitet och nätverksanslutning.

Genom att kringgå dessa begränsningar av molnbaserad AI, vill organisationer ta till sig edge computing. Edge computings förmåga att möjliggöra realtidsanalys och svar vid den punkt där data skapas och konsumeras är anledningen till att organisationer ser det som avgörande för AI-innovation och affärstillväxt.

Med sitt löfte om snabbare bearbetning med noll till minimal latens kan edge AI dramatiskt förändra nya applikationer. Medan datorkapaciteten för edge-enheter blir allt bättre, finns det fortfarande begränsningar som kan göra det svårt att implementera mycket exakta AI-modeller. Teknologier och tillvägagångssätt som modellkvantisering, imitationsinlärning, distribuerad slutledning och distribuerad datahantering kan hjälpa till att ta bort hindren för mer effektiva och kostnadseffektiva Edge-AI-distributioner så att organisationer kan utnyttja sin verkliga potential. 

AI-inferens i molnet påverkas ofta av latensproblem, vilket orsakar förseningar i datarörelsen mellan enheter och molnmiljöer. Organisationer inser kostnaden för att flytta data över regioner, in i molnet och fram och tillbaka från molnet till kanten. Det kan hindra applikationer som kräver extremt snabba svar i realtid, såsom finansiella transaktioner eller industriella säkerhetssystem. Dessutom, när organisationer måste köra AI-drivna applikationer på avlägsna platser där nätverksanslutning är opålitlig, är molnet inte alltid inom räckhåll. 

Begränsningarna för en "bara moln" AI-strategi blir allt tydligare, särskilt för nästa generations AI-drivna applikationer som kräver snabba svar i realtid. Frågor som nätverkslatens kan bromsa insikter och resonemang som kan levereras till applikationen i molnet, vilket leder till förseningar och ökade kostnader i samband med dataöverföring mellan moln- och kantmiljöer. Detta är särskilt problematiskt för realtidsapplikationer, särskilt i avlägsna områden med intermittent nätverksanslutning. Eftersom AI står i centrum för beslutsfattande och resonemang, kan fysiken för att flytta runt data vara extremt kostsam med en negativ inverkan på affärsresultat. 

Gartner förutspår att mer än 55 % av all dataanalys av djupa neurala nätverk kommer att ske vid infångningspunkten i ett kantsystem 2025, upp från mindre än 10 % 2021. Edge computing hjälper till att lindra latens, skalbarhet, datasäkerhet, anslutning och fler utmaningar, omformar hur databehandling hanteras och i sin tur accelererar AI-anpassningen. Att utveckla applikationer med en offline-först-strategi kommer att vara avgörande för framgången för agila applikationer.

Med en effektiv kantstrategi kan organisationer få mer värde från sina applikationer och fatta affärsbeslut snabbare.

När AI-modeller blir allt mer sofistikerade och applikationsarkitekturer blir mer komplexa, blir utmaningen att distribuera dessa modeller på avancerade enheter med beräkningsbegränsningar mer uttalad. Emellertid banar framsteg inom teknik och utvecklande metoder väg för effektiv integration av kraftfulla AI-modeller inom edge computing-ramverket som sträcker sig från: 

Modellkompression och kvantisering

Tekniker som modellbeskärning och kvantisering är avgörande för att minska storleken på AI-modeller utan att avsevärt kompromissa med deras noggrannhet. Modellbeskärning eliminerar överflödig eller icke-kritisk information från modellen, medan kvantisering minskar precisionen för siffrorna som används i modellens parametrar, vilket gör modellerna lättare och snabbare att köra på enheter med begränsade resurser. Model Quantization är en teknik som involverar komprimering av stora AI-modeller för att förbättra portabiliteten och minska modellstorleken, vilket gör modellerna mer lätta och lämpade för edge-distributioner. Genom att använda finjusteringstekniker, inklusive Generalized Post-Training Quantization (GPTQ), Low-Rank Adaptation (LoRA) och Quantized LoRA (QLoRA), sänker modellkvantisering den numeriska precisionen av modellparametrar, vilket gör modellerna mer effektiva och tillgängliga för edge-enheter som t.ex. surfplattor, edge-gateways och mobiltelefoner. 

Kantspecifika AI-ramverk

Utvecklingen av AI-ramverk och bibliotek som är speciellt utformade för edge computing kan förenkla processen med att distribuera edge AI-arbetsbelastningar. Dessa ramverk är optimerade för beräkningsbegränsningarna hos edge-hårdvara och stöder effektiv modellexekvering med minimal prestandaoverhead.

Databaser med distribuerad datahantering

Med funktioner som vektorsökning och realtidsanalys, hjälper du till att möta kantens operativa krav och stöder lokal databehandling, hantering av olika datatyper, såsom ljud, bilder och sensordata. Detta är särskilt viktigt i realtidsapplikationer som mjukvara för autonoma fordon, där olika datatyper ständigt samlas in och måste analyseras i realtid.

Distribuerad slutledning

Som placerar modeller eller arbetsbelastningar över flera edge-enheter med lokala dataprover utan faktiskt datautbyte kan mildra potentiella efterlevnads- och datasekretessproblem. För applikationer, som smarta städer och industriell IoT, som involverar många edge- och IoT-enheter, är distribution av slutledning avgörande att ta hänsyn till. 

Även om AI huvudsakligen har bearbetats i molnet, kommer det att vara avgörande att hitta en balans med edge för att accelerera AI-initiativ. De flesta, om inte alla, industrier har erkänt AI och GenAI som en konkurrensfördel, varför det blir allt viktigare att samla in, analysera och snabbt få insikter vid kanten. I takt med att organisationer utvecklar sin AI-användning, kommer implementering av modellkvantisering, multimodala kapaciteter, dataplattformar och andra kantstrategier att hjälpa till att skapa meningsfulla affärsresultat i realtid.
 
 

Rahul Pradhan är VP of Product and Strategy på Couchbase (NASDAQ: BASE), leverantör av en ledande modern databas för företagsapplikationer som 30 % av Fortune 100 är beroende av. Rahul har över 20 års erfarenhet av att leda och leda både ingenjörs- och produktteam med fokus på databaser, lagring, nätverk och säkerhetstekniker i molnet. Innan Couchbase ledde han produkthanterings- och affärsstrategiteamet för Dell EMC:s Emerging Technologies och Midrange Storage Divisions för att få ut alla flash-NVMe-, Cloud- och SDS-produkter på marknaden.

plats_img

Senaste intelligens

plats_img