Zephyrnet-logo

Google lanserer Gemini AI-systemer i tre varianter

Dato:

Google har avduket Gemini, dens kraftigste klasse av transformatorbaserte modeller til nå, som er i stand til å behandle tekst, bilder, lyd og video. 

Gemini er en multimodal modell med et 32k kontekstvindu som kan ta ulike typer data som input og generere bilder og tekst som output, og kommer i tre forskjellige størrelser. Den største, Gemini Ultra, er den kraftigste versjonen designet for komplekse oppgaver som krever "resonnering" eller behandling av flere typer data.

Gemini Pro, er den mellomstore modellen som er optimalisert for å kjøre mer effektivt og utføre et bredere spekter av oppgaver. Den minste Gemini Nano er delt i to, Nano-1 har 1.8 milliarder parametere, og Nano-2 har 3.25 milliarder parametere og er designet for å kjøre på små enheter. Google avslørte ikke hvor mange parametere de kraftigere Gemini Pro- og Gemini Ultra-modellene inneholder. 

Så, hva bruker Google Gemini til? Fra og med i dag har AI-chatboten Bard nå blitt oppdatert for å kjøre Gemini Pro, noe som betyr at den burde være bedre til å forstå og oppsummere tekst enn den forrige versjonen drevet av Googles PaLM 2-språkmodell. De multimodale mulighetene er imidlertid ikke helt klare ennå, og Gemini-Pro-versjonen av Bard kan bare behandle og generere tekst, og støtter kun engelsk foreløpig. 

Google planlegger også å fornye noen av sine Search-, Ads-, Chrome- og Duet AI-produkter med Gemini Pro, som Gmail, Google Docs og mer i løpet av de neste månedene.

I mellomtiden vil Googles nyeste Pixel 8 Pro kjøre Gemini Nano for å støtte to nye funksjoner, oppsummere lydfiler i Recorder-appen, og generere raske svar på tekstmeldinger via Gboards virtuelle tastaturapp. Google vil bygge flere AI-funksjoner på toppen av Gemini Nano for sine smarttelefoner, sa det, og planlegger å åpne opp programvaren for å tillate tredjeparts Android-utviklere også med sin AICore-tjeneste.

AICore kjører på Android 14 og gir utviklere tilgang til modellen via åpen kildekode APIer, og vil håndtere ting som kjøretider og sikkerhet.

Dessverre må de som venter på å teste ut Gemini Ultra vente litt lenger. «Vi fullfører for tiden omfattende tillits- og sikkerhetssjekker, inkludert red-teaming av pålitelige eksterne parter, og videreutvikler modellen ved hjelp av finjustering og forsterkende læring fra menneskelig tilbakemelding før vi gjør den allment tilgjengelig,» forklarte

The Chocolate Factory planlegger å gjøre Gemini Ultra tilgjengelig neste år, og vil begynne å eksperimentere med modellens muligheter med utvalgte kunder og utviklere før den lanserer sin Bard Advanced chatbot. 

Leverandører som ønsker å bygge spesialiserte AI-verktøy drevet av Gemini for spesifikke applikasjoner, som for eksempel de som jobber i juridisk, HR, medisinsk eller finansnæringen, vil kunne få tilgang til Gemini Pro som en API i Google AI Studio eller Google Cloud Vertex AI-plattformer fra 13. desember. 

Google vs OpenAI

Google har blitt kritisert for å være treg med å sende AI-produkter til tross for at de er ledende innen teknologiens forskning og utvikling.

OpenAI lanserte sin virale nettapp ChatGPT for et år siden og hjalp Microsoft med å lansere sin egen AI Bing chatbot kort tid etter, og lot Google spille catchup. Nå kan de nyeste ChatGPT- og AI Bing-versjonene drevet av GPT-4 også behandle bilder. Gemini er Googles innsats for å holde seg konkurransedyktig. Så hvordan er det sammenlignet med OpenAIs modeller?

Det korte svaret er: Gemini Pro ser ut til å være litt bedre enn GPT-3.5, mens Gemini Ultra er litt bedre enn GPT-4, ifølge noen benchmark-tester Google har gitt ut.

"I store trekk finner vi at ytelsen til Gemini Pro overgår inferensoptimaliserte modeller som GPT-3.5 og presterer sammenlignbart med flere av de mest kapable modellene som er tilgjengelige, og Gemini Ultra overgår alle nåværende modeller," sa Gemini-teamet i en artikkel [PDF]

Testerne sammenlignet Geminis evner med forskjellige modeller fra OpenAI, Anthropic, X og Meta på tvers av ti forskjellige tester. De involverte stort sett tekstbaserte oppgaver som å løse matematikk- og Python-kodingsproblemer, spørsmål og svar for tekstforståelse, sunn fornuftskontroll og maskinoversettelse. 

Gemini Ultra presterte bedre enn GPT-4, Claude, Grok-1 og Llama-2 for åtte av ti oppgaver, mens Gemini Pro overgikk GPT-3.5 og alle de andre modellene i syv av ni oppgaver. Disse referanseresultatene bør imidlertid tas med en klype salt.

Selv om AI-teknologier blir bedre, er de ikke perfekte og atferden deres er uforutsigbar. Tvillingene har fortsatt de samme begrensningene som alle store språkmodeller (LLM) når det gjelder å generere faktisk feil informasjon, en prosess kjent som hallusinasjon.

"Til tross for deres imponerende evner, bør vi merke oss at det er begrensninger for bruken av LLM. Det er et fortsatt behov for pågående forskning og utvikling på 'hallusinasjoner' generert av LLM-er for å sikre at modellutdata er mer pålitelige og verifiserbare,» advarte Gemini-teamet.

"LLM-er sliter også med oppgaver som krever resonneringsevner på høyt nivå som årsaksforståelse, logisk deduksjon og kontrafaktisk resonnement, selv om de oppnår imponerende prestasjoner på eksamensbenchmarks."

Likevel investerer Google stort i teknologien. Under administrerende direktør Sundar Pichai har søkegiganten reorientert seg som "et AI-first company" og streber nå etter å kommersialisere innsatsen og forbli konkurransedyktig med den nye bølgen av AI-startups. 

«Nesten åtte år inn i reisen vår som et AI-first-selskap, øker tempoet i fremgangen bare: Millioner av mennesker bruker nå generativ AI på tvers av produktene våre for å gjøre ting de ikke kunne engang for et år siden, fra å finne svar til mer komplekse spørsmål til å bruke nye verktøy for å samarbeide og skape,» han sa».

«Samtidig bruker utviklere våre modeller og infrastruktur for å bygge nye generative AI-applikasjoner, og startups og bedrifter rundt om i verden vokser med våre AI-verktøy. Dette er et utrolig momentum, og likevel begynner vi bare å skrape i overflaten av hva som er mulig.» ®

spot_img

Siste etterretning

spot_img