Zephyrnet-logotyp

Cloudflare släpper AI från nätverkskanten

Datum:

Generativa AI-modeller kan tränas i massiva kluster av GPU:er, men Cloudflare hävdar att den uppenbara platsen att köra dem på är inte bara i kanten utan i själva nätverket.

På onsdagen leveransjätten meddelade en uppsättning AI-tjänster som syftar till att flytta bort komplexiteten i att distribuera och köra stora språkmodeller (LLM) och andra algoritmer för maskininlärning (ML), samtidigt som man uppnår lägsta möjliga latens.

Tja, faktiskt, lägsta möjliga latens skulle uppnås genom att köra inferensarbetsbelastningen på användarens enhet. Intel gjorde en stor sak om detta, värnpliktens uppkomsten av AI PC-generationen, förra veckan på Intel Innovation. Men även om detta kan vara vettigt i vissa fall, hävdar Cloudflare att lokala enheter inte är tillräckligt kraftfulla ännu.

"Detta gör nätverket till slutledningarnas guldlock. Inte för långt, med tillräcklig beräkningskraft – helt rätt”, skriver biz.

Serverlös för GPU:er

AI-sviten består av tre kärntjänster. Den första av dessa är en förlängning av dess serverlösa Workers-plattform för att stödja GPU-accelererade arbetsbelastningar. Tjänsten, kallad Workers AI, är utformad för att effektivisera processen med att distribuera förutbildade modeller.

"Ingen maskininlärningsexpertis, inget letande efter GPU:er. Välj bara en av de medföljande modellerna och gå”, hävdar Cloudflare.

Vi får höra att plattformen körs ovanpå Nvidia GPU:er, även om Cloudflare inte skulle berätta för oss vilka. "Tekniken Cloudflare har byggt kan dela en slutledningsuppgift över flera olika GPU:er, eftersom vi tar hand om schemaläggningen och systemet, och vi kommer att bestämma vilket chip eller vilka chips som är mest meningsfulla för att leverera det," sa den Registret i ett uttalande.

För enkelhetens skull stöder plattformen inte - åtminstone inte initialt - kundlevererade modeller. Vi har fått veta att den planerar att rulla ut detta funktionellt i framtiden, men för närvarande är det begränsat till sex förutbildade modeller, som inkluderar:

  • Metas Llama 2 7B Int8 för textgenerering
  • Metas M2m100-1.2 för översättning
  • OpenAI:s Whisper för taligenkänning
  • Hugging Face's Distilbert-sst-2-int8 för textklassificering
  • Microsofts Resnet-50 för bildklassificering
  • Baai's bge-base-en-v1.5 för inbäddningar

Cloudflare säger dock att det arbetar med att utöka denna lista inom en snar framtid. Liksom många AI-hoppare har det gjort det solicited hjälp av Hugging Face för att optimera ytterligare modeller för tjänsten.

Det är inte klart om det finns en gräns för storleken på modellerna som plattformen kan stödja, men den första listan ger några ledtrådar. Cloudflare gör Metas sju miljarder parameter Llama 2 LLM tillgänglig på Int8, vilket skulle kräva cirka 7 GB GPU-minne. Företaget noterar också att "om du funderar på att köra hundratals miljarder parameterversioner av modeller, kommer det centraliserade molnet att vara bättre lämpat för din arbetsbelastning."

När de väl är igång säger Cloudflare att kunder kan integrera tjänsten i sina applikationer med hjälp av REST API:er eller genom att knyta den till sin Pages-webbplats frontend.

Få alltid att falla på plats

Eftersom Workers AI endast stöder slutledning på förutbildade modeller, säger Cloudflare att det har utvecklat en vektordatabastjänst som heter Vectorize för att göra det lättare för ML-modellerna att skicka kunddata till användarna

Till exempel, för en chatbot kan en kund ladda upp sin produktkatalog till vektordatabasen, från vilken modellen skulle konvertera den till en inbäddad tillgång.

Tanken verkar vara att även om Llama 2-modellen som erbjuds av Cloudflare kanske inte har specifik kunskap om en kunds data, kan chatboten fortfarande få fram relevant information genom att knyta an till databastjänsten. Enligt Cloudflare, detta tillvägagångssätt gör dra slutsatser mer tillgängligt, snabbare och mindre resurskrävande eftersom det frikopplar kunddata från själva modellen.

Vid sidan av Workers AI och Vectorize innehåller Cloudflares AI-svit också en plattform för övervakning, optimering och hantering av slutledningsarbetsbelastningar i stor skala.

Dubbad AI Gateway tillämpar tjänsten flera funktioner som vanligtvis är associerade med innehållsleveransnätverk och webbproxyer, som cachning och hastighetsbegränsning, på AI-inferencing för att hjälpa kunder att kontrollera kostnaderna.

"Genom att cachelagra ofta använda AI-svar minskar det latensen och stärker systemets tillförlitlighet, medan hastighetsbegränsning säkerställer effektiv resursallokering, vilket minskar utmaningarna med att spiralera AI-kostnader", förklarar företaget i blogginlägget.

Pris och tillgänglighet

Cloudflare noterar att tjänsten fortfarande är i ett tidigt skede av implementeringen, med sju webbplatser online idag. Företaget distribuerar dock GPU:er för att få tjänsten till 100 närvaropunkter i slutet av året och "nästan överallt" i slutet av 2024.

Som ett resultat av detta rekommenderar det inte att du distribuerar produktionsappar på Workers AI ännu, och beskriver det som en "tidig beta."

"Det vi släppte idag är bara en liten förhandstitt för att ge dig ett smakprov på vad som kommer", står det i blogginlägget.

Som vanligt säger Cloudflare att det inte kommer att faktureras för tjänsten dag ett. Med det sagt, räknar man med att debitera ungefär en cent för varje tusen "vanliga ryckneuroner" och $0.125 för varje tusen "snabba ryckneuroner." Skillnaden mellan de två är att den senare prioriterar närhet till slutanvändaren, medan den billigare av de två körs överallt där Cloudflare har överkapacitet.

Neuroner är ett sätt att mäta AI-utdata, förklarade företaget och tillade att tusen neuroner är bra för cirka 130 LLM-svar, 830 bildklassificeringar eller 1,250 XNUMX inbäddningar ®.

plats_img

Senaste intelligens

plats_img