Zephyrnet-logotyp

En kort historia om generativ AI – DATAVERSITET

Datum:

generativ AIgenerativ AI
Ole.CNX / Shutterstock

Generativ AI har en ganska kort historia, med tekniken som initialt introducerades under 1960-talet, i form av chatbots. Det är en form av artificiell intelligens som för närvarande kan producera högkvalitativ text, bilder, videor, ljud och syntetiska data på några sekunder. Men det var inte förrän 2014, när konceptet med det generativa motstridiga nätverket (GAN) introducerades, som generativ AI utvecklades till den grad att man kunde skapa bilder, videor och ljud som verkar autentiska inspelningar av riktiga människor.

För närvarande är generativ AI en viktig komponent i ChatGPT och dess variationer.

de 1950s

Generativ AI är baserad på maskininlärning och djupinlärningsalgoritmer. Den första maskininlärningsalgoritmen utvecklades av Arthur Samuel 1952 för att spela pjäs - han kom också på frasen "maskininlärning".

Det första "neurala nätverket" som kunde tränas kallades Perceptronen, och utvecklades 1957 av en Cornell University-psykolog, Frank Rosenblatt. Perceptronens design var mycket lik moderna neurala nätverk men hade bara "ett" lager som innehöll justerbara trösklar och vikter, som separerade ingångs- och utgångsskikten. Det här systemet misslyckades eftersom det var för tidskrävande.

1960- och 1970-talet

Det första historiska exemplet på generativ AI kallades ELIZA. Det kan också betraktas som en tidig version av chatbots. Den skapades 1961 av Joseph Weizenbaum. ELIZA var ett talande datorprogram som skulle svara på en människa, använda ett naturligt språk och svar utformade för att låta empatiska.

Under 1960- och 70-talen utfördes grundforskningen för datorseende och några grundläggande igenkänningsmönster. Ansiktsigenkänning tog ett dramatiskt steg framåt när Ann B. Lesk, Leon D. Harmon och AJ Goldstein avsevärt ökade dess noggrannhet (Man-Machine Interaction in Human-Face Identification1972). Teamet utvecklade 21 specifika markörer, inklusive egenskaper som tjockleken på läpparna och hårfärgen för att automatiskt identifiera ansikten. 

På 1970-talet började backpropagation användas av Seppo Linnainmaa. Termen "tillbakaförökning” är en process för att sprida fel, bakåt, som en del av inlärningsprocessen. De inblandade stegen är:

  1. Bearbetas i utgångsänden
  2. Skickas för att distribueras bakåt 
  3. Flyttade sig genom nätverkets lager för träning och lärande 

(Backpropagation används för att träna djupa neurala nätverk.) 

Den första AI-vintern skiljer maskininlärning och artificiell intelligens åt

Första AI-vintern började och slutade från ungefär 1973 till 1979 – löften gavs, men förväntningarna hölls inte. Byråer som hade finansierat forskning för artificiell intelligens (Darpa, NRC och den brittiska regeringen) skämdes plötsligt över bristen på framåtriktad rörelse i dess utveckling. 

Maskininlärning (ML) fortsatte dock att utvecklas. Inte för att det fortfarande fick statlig finansiering, utan för att maskininlärning hade blivit extremt användbart för företag som ett svarsverktyg. Maskininlärning hade börjat som en träningsteknik för AI, men man upptäckte att den också kunde användas för att utföra enkla uppgifter, som att svara i telefon och överföra samtal till rätt person. Även om ML-program kanske inte kan föra en intelligent konversation, kan de utföra grundläggande men mycket användbara uppgifter. Företagen var inte intresserade av att ge upp ett verktyg som var både kostnadseffektivt och användbart.

Företag valde att finansiera sin egen forskning för utveckling av maskininlärning, och tidigare forskare omorganiserade sig till en separat bransch – tills de slogs samman med AI igen på 1990-talet.

Även om neurala nätverk föreslogs 1944 av två forskare från University of Chicago, Warren McCullough och Walter Pitts, det första funktionella "flerskiktade" artificiella neurala nätverket, Cognitron, utvecklades 1975 av Kunihiko Fukushima.

Neurala nätverk lägger grunden för användningen av maskininlärning och djupinlärning. Deras design stöder in- och utdatalager, och de dolda lagren mellan dem används för att transformera indata, vilket gör det användbart för utdatalagret. Med denna nya design förbättrades ansikts- och taligenkänningen dramatiskt. Dolda lager ger också grunden för djup inlärning.

1979, Kunhiko Fukushima föreslog att man skulle utveckla ett hierarkiskt artificiellt neuralt nätverk i flera lager, som han namngav Neokognitron. Detta var det första neurala nätverket för djupinlärning. Hans design stödde datorns förmåga att lära sig att identifiera visuella mönster, och mer specifikt, handskriven karaktärsigenkänning. Hans design gjorde det också möjligt för betydande data att justeras manuellt, vilket gjorde det möjligt för människor att öka "vikten" av vissa anslutningar.

1980-talet och den andra AI-vintern

1982 gjordes en annan upptäckt av John Hopfield, som utvecklade en ny form av neurala nätverk - Hopfield nätet – med ett helt annat tillvägagångssätt. Hopfield-nätverket samlade och hämtade minnen mer som den mänskliga hjärnan gör än tidigare system gjorde.

Den andra AI-vintern började dock ungefär 1984 och fortsatte till 1990, och bromsade utvecklingen av artificiell intelligens, såväl som generativ AI. Ilskan och frustrationen över brutna löften och brutna förväntningar var så intensiv att termen "artificiell intelligens" fick status som pseudovetenskap, och det talades ofta om med förakt. En bred känsla av skepsis hade utvecklats angående AI. Finansieringen skars tyvärr ned för majoriteten av forskningen inom AI och djupinlärning.

1986 introducerade David Rumelhart och hans team ett nytt sätt att träna neurala nätverk, med hjälp av tekniken för bakåtpropagation som utvecklades på 1970-talet.

I slutet av 1980-talet, MOS (Metalloxidhalvledare), som utvecklades 1959) slogs samman med VLSI (Mycket storskalig integration) och gav ett mer praktiskt, mer effektivt artificiellt neuralt nätverk. Denna kombination kallades a kompletterande MOS (eller en CMOS).

Djup inlärning blev en funktionell verklighet år 1989, när Yann LeCun och hans team använde en backpropagation-algoritm med neurala nätverk för att känna igen handskrivna postnummer.

Djup lärning använder algoritmer för att bearbeta data och för att imitera den mänskliga tankeprocessen. Den använder lager av algoritmer utformade för att bearbeta data, visuellt känna igen objekt och förstå mänskligt tal. Data flyttas genom varje lager, med utdata från föregående lager som visar input som behövs för nästa lager. Inom djupinlärning ger de ytterligare lagren som används "abstraktioner" på högre nivå, vilket ger bättre förutsägelser och bättre klassificeringar. Ju fler lager som används, desto större är potentialen för bättre förutsägelser. 

Djup inlärning har blivit en extremt användbar träningsprocess som stödjer bildigenkänning, röstigenkänning och bearbetning av stora mängder data.

1990-talet och AI-forskningen återhämtar sig

Eftersom finansieringen av artificiell intelligens började igen på 1990-talet, fick maskininlärning, som en utbildningsmekanism, också finansiering. Maskininlärningsindustrin hade fortsatt att forska i neurala nätverk under den andra AI-vintern och började blomstra på 1990-talet. Mycket av maskininlärningens fortsatta framgång var användningen av karaktärs- och taligenkänning, i kombination med internets överväldigande tillväxt och användningen av persondatorer.

Begreppet "förstärkning" delades 1990 i tidningen Styrkan av svag lärbarhet, av Robert Schapire. Han förklarade att en uppsättning svaga elever kan skapa en enda stark elev. Boostande algoritmer minska fördomar under den övervakade inlärningsprocessen och inkluderar maskininlärningsalgoritmer som kan omvandla flera svaga elever till några starka. (Svaga elever gör korrekta förutsägelser under drygt 50 % av tiden.) 

Datorspelsindustrin förtjänar betydande belopp för att ha hjälpt till med utvecklingen av generativ AI. 3D grafikkort, föregångarna till grafiska processorenheter (GPU), introducerades först under det tidiga 1990-talet för att förbättra presentationen av grafik i videospel. 

År 1997 skapade Juergen Schmidhuber och Sepp Hochreiter "långt korttidsminne” (LSTM ) för användning med återkommande neurala nätverk. För närvarande använder majoriteten av taligenkänningsutbildning denna teknik. LSTM stöder inlärningsuppgifter som kräver ett minne som täcker händelser tusentals steg tidigare, och som ofta är viktiga under konversationer.

Nvidia (ansvarig för många spelteknologiska framsteg) utvecklade en avancerad GPU 1999, med beräkningshastigheter som ökades med tusen. Deras första GPU kallades GeForce 256

Det var en överraskande insikt att GPU:er kunde användas till mer än videospel. De nya GPU:erna applicerades på artificiella neurala nätverk, med fantastiskt positiva resultat. GPUs har blivit ganska användbara i maskininlärning, med ungefär 200 gånger antalet processorer per chip jämfört med en central enhet. (Centrala bearbetningsenheter, eller processorer, är dock mer flexibla och utför ett bredare urval av beräkningar, medan GPU:er tenderar att vara skräddarsydda för specifika användningsfall.)

de 2000s

The Face Recognition Grand Challenge, en främjande för att förbättra teknik för ansiktsigenkänning, finansierades av den amerikanska regeringen och ägde rum från 2004 och 2006. Det resulterade i nya ansiktsigenkänningstekniker och ansiktsigenkänningsprestanda. De nyutvecklade algoritmerna var upp till tio gånger mer exakta än de ansiktsigenkänningsalgoritmer som användes 2002. Vissa av algoritmerna kunde till och med identifiera skillnader mellan enäggstvillingar.

2010-talet och virtuella assistenter och chatbots

Den 4 oktober 2011, Siri, den första digitala virtuella assistenten som ansågs fungerande, kom som en tjänst med iPhone 4S. Användningen av chatbots ökade också betydligt. 

2014 presenterades konceptet med det generativa motståndsnätverket (GAN). GAN används för att skapa bilder, videor och ljud som verkar som autentiska inspelningar av verkliga situationer.          

Ett generativt motståndsnätverk använder två neurala nätverk som har haft samtidig motstridig träning: Det ena neurala nätverket fungerar som en diskriminator och det andra som en generator. Diskriminatorn har tränats för att skilja mellan genererad data och verklig data. Generatorn skapar syntetisk data och försöker imitera riktiga data. Övning gör att generatorn kan bli bättre på att generera allt mer realistiska inspelningar för att lura diskriminatorn. GAN:er kan skapa syntetisk data som är svår, för att inte säga omöjlig, att känna igen som artificiell.

2020-talet och smartare chatbots

I november 2022 introducerade OpenAI ChatGPT, en generativ AI i kombination med stora språkmodeller. ChatGPT, och dess variationer, har uppnått en ny nivå av artificiell intelligens. Dessa "smartare chatbots" kan utföra forskning, stödja rimligt bra skrivande och generera realistiska videor, ljud och bilder.

Kombinationen av generativ AI-träning med stora språkmodeller har resulterat i artificiell intelligens som har förmågan att tänka och resonera. De kan också ha förmågan att "föreställa sig". ChatGPT har anklagats för att hallucinera, vilket skulle kunna tolkas som användning av fantasi.

plats_img

Senaste intelligens

plats_img