Zephyrnet-logo

Belangrijkste ontwikkelingen op het gebied van datawetenschap, machine learning, AI en analyse van 2022

Datum:

Belangrijkste ontwikkelingen op het gebied van datawetenschap, machine learning, AI en analyse van 2022
Foto door Arturi Jalli on Unsplash
 

Het einde van het jaar staat voor de deur, en net zoals we al een lange tijd hebben gedaan, heeft KDnuggets contact opgenomen met een gevarieerde cast van experts om hun mening te vragen over de volgende vraag:

Wat waren volgens jou de belangrijkste ontwikkelingen op het gebied van datawetenschap, machine learning, AI en analyse van 2022?

We vroegen de deelnemers ongeveer 400 woorden over de onderwerpen en hebben de onderstaande antwoorden verzameld. De antwoorden zijn grotendeels in alfabetische volgorde weergegeven. We hebben de input van KDnuggets en een speciale gastreactie tot het einde achtergehouden. Merk ook op dat sommige reacties enigszins afwijken van de voorspellingen voor 2023, maar ze zijn ook voor u opgenomen.

Geniet van onderstaande inzichten en wens iedereen een succesvol 2023.

 
De eerste inzichten komen uit Anima Anandkumar. Anima is directeur van ML Research bij NVIDIA, en Bren Professor bij Caltech. Anima heeft een aantal specifieke voorspellingen om te delen.

Digitale tweelingen worden fysiek: we zullen grootschalige digitale tweelingen zien van fysieke processen die complex en multi-schaal zijn, zoals weer- en klimaatmodellen, seismische fenomenen en materiaaleigenschappen. Dit zal de huidige wetenschappelijke simulaties met een miljoen keer versnellen en nieuwe wetenschappelijke inzichten en ontdekkingen mogelijk maken.

Generalistische AI-agenten: AI-agenten lossen taken met een open einde op met instructies in natuurlijke taal en grootschalig versterkend leren, terwijl ze gebruik maken van basismodellen - die grote AI-modellen die op grote schaal zijn getraind op een enorme hoeveelheid niet-gelabelde gegevens - om agenten in staat te stellen elke type verzoek en zich in de loop van de tijd aanpassen aan nieuwe soorten vragen.

Deze voorspellingen komen uit hier, met toestemming.

 
De volgende is Ryohei Fujimaki, CEO en medeoprichter van puntGegevens. Jeremy raakt een paar onderwerpen aan, hoewel er een gemeenschappelijk thema zichtbaar is.

2022 was een tumultueus jaar voor de wereldeconomie. De wereld van Data Science werd direct beïnvloed toen organisaties de nadruk begonnen te leggen op geld besparen en "meer doen met minder". Deze veranderingen creëerden twee belangrijke trends. Ten eerste begonnen datateams het hergebruik van machine learning (ML)-functies te vergroten, en ten tweede werden nieuwe ML-technologietools die de ML-ontwikkelingsprocessen optimaliseren wijdverbreid.

Door de toegenomen interesse in het hergebruik van functies, werd het belang van investeringen in feature stores groter. Maar op zijn beurt creëerde deze toegenomen interesse in feature stores een nieuw probleem voor organisaties - met name hoe deze feature stores te voeden met grotere volumes zonder een leger van datawetenschappers en data-engineers in te huren. De wens om het nut van feature stores te maximaliseren leidde onvermijdelijk tot een vraag naar nieuwe tools en platforms die feature discovery en feature engineering processen automatiseren en optimaliseren.

De agenda om "meer te doen met minder" zal een topprioriteit blijven als we 2023 ingaan. We verwachten dat deze trend de groei zal stimuleren in geselecteerde investeringen voor technologieën die helpen bij het automatiseren van processen voor de analyse en het gebruik van gegevens - of het nu gaat om de ontwikkeling van ML-modellen of geavanceerde analytische toepassingen. Er zal veel vraag blijven naar platforms die datawetenschappers en ingenieurs helpen hun werk beter, sneller en met minder hulp van vakexperts te doen.

 
Nikita Johnson, oprichter en adviseur bij OPNIEUW WERKEN, gaf deze beknopte weergave van wat zij belangrijk vond in 2022 en wat er in de pijplijn zit voor 2023.

Een gebied waarop we dit jaar vooruitgang hebben gezien, is verantwoorde AI, en 2023 zou het jaar moeten zijn waarin we versneld beheer en adoptie zien, evenals concrete kaders om te bereiken wat ons gezamenlijke doel zou moeten zijn, van verantwoorde AI worden de norm voor elke organisatie.

 
Nava Levy is een Developer Advocate voor Data Science en MLOps bij Redis. Ze biedt de volgende inzichten vanuit een real-time AI/ML-perspectief.

Data Science: vectordatabases toepassen voor het zoeken naar gelijkenissen tussen vectoren

In data science in de afgelopen 2-3 jaar zijn de meest opwindende ontwikkelingen volgens mij de overvloed aan open source grote vooraf getrainde deep learning-modellen en hoe de inbeddingen zijn gegenereerd dankzij deze modellen, frameworks en repositories als tensorstroom en Gezicht knuffelen, -wie onlangs $ 100 miljoen opgehaald, worden gebruikt voor een verscheidenheid aan downstream ML-use-cases, met minimale fijnafstemming. 

De belangrijkste nieuwe ontwikkeling in het afgelopen jaar / 2022 is de mogelijkheid om deze modellen, frameworks en inbeddingen ook toe te passen voor real-time use cases zoals aanbevelingen of sentimentanalyse, met behulp van vectordatabases voor het zoeken naar vectorgelijkenis met gefilterde zoekopdrachten. Dit breidt niet alleen de toepassing van inbedding uit naar een breed scala aan real-time use cases, het vergroot ook de toegankelijkheid voor softwareontwikkelaars die geen experts zijn op het gebied van datawetenschap of machine learning. Het stelt ontwikkelaars in staat om elke applicatie te verrijken met AI, met een paar regels code, waardoor de complexiteit van de ontwikkelaars wordt geabstraheerd, wat helpt bij het democratiseren van die gigantische machtshongerige en data-intensieve deep learning-modellen.

In het afgelopen jaar hebben we technologiebedrijven en open source-bibliotheken, durfkapitalisten en startups deze kans zien aangrijpen. Vectordatabasetechnologie begint volwassen te worden en benchmark gepubliceerd, zoals de recente gepubliceerd door JinaAI waarin de verschillende technologieën voor een miljoen vectorinbeddingen worden vergeleken. Deze benchmarks leggen de nadruk op latentie en doorvoer terwijl ze tegelijkertijd een hoge nauwkeurigheid behouden. 

Machine Learning: opkomst van enterprise-ready feature stores

Voor machine learning techniek, de meest opwindende ontwikkeling in de afgelopen 2-3 jaar is volgens mij de opkomst van Machine Learning Operations of MLOps en de belangrijke rol van feature stores voor machine learning als hoeksteen van deze platforms. 

De belangrijkste nieuwe ontwikkelingen in het afgelopen jaar / 2022 in dit domein is de toegenomen maturiteit van feature stores met de introductie van bedrijfsklare featurestores die vele soorten omvat real-time AI/ML-use-cases, in open source feature stores, commerciële feature stores en doe-het-zelf / bouw je eigen feature stores. Enkele van de opmerkelijke voorbeelden zijn: Linkedin open sourcing veren, zijn in de strijd geteste schaalbare feature store, die het mogelijk maakt om feature engineering / berekeningen uit te voeren in de feature store; Tecton - een winkel met commerciële functies, die onlangs $ 100 miljoen opgehaald een MLOps Unicorn worden, ondersteuning toevoegen voor Redis Enterprise voor zijn online winkel om gebruiksscenario's met lage latentie of hoge doorvoer mogelijk te maken, ondersteuning van streaming en real-time functies. En tot slot, bedrijven zoals iFood en Gojek, die enkele jaren geleden hun eigen feature stores hebben gebouwd, hebben nu hun online feature store geüpgraded van Redis open source in memory database naar zijn Enterprise-ready versie, ondersteuning van low latency en grootschalige use cases.

 
Jeremia Lowin is CEO en oprichter van Prefect. Jeremiah deelt inzichten in een vaak over het hoofd gezien hoofdbestanddeel van de data science tech toolkit.

De belangrijkste taal om te leren is niet Python; het is SQL. Databases van elke omvang staan ​​op instorten. Veel workloads verhuizen naar de cloud (en krachtige datawarehouses in de cloud in het bijzonder), en bereiken uiteindelijk een omslagpunt omdat een combinatie van functies en prijs het voor elk bedrijf moeilijk maakt om stand te houden. En wanneer gegevens lokaal beschikbaar zijn, maken nieuwe in-memory databases zoals DuckDB het mogelijk om geavanceerde, op SQL gebaseerde query-engines te gebruiken vanaf een laptop, vanuit een serverloze functie, zelfs vanuit de browser zelf. Deze alomtegenwoordige op SQL gebaseerde tools verdringen de zwaar gescripte benaderingen van datamanipulatie van gisteren, omdat ze gebruikers in staat stellen om met data te werken waar ze zich bevinden, in plaats van ze te extraheren, te manipuleren en opnieuw in te voegen.

 
Charles Martin is oprichter bij Berekening Consulting, een AI-specialist en Distinguished Engineer in NLP & Search, en de uitvinder van weightwatcher.ai. Charles stipt enkele ontwikkelingen aan die zeker van invloed zijn op veel bedrijven in hun AI-ambities.

ML en AI zijn nu zo ongeveer overal. Ik heb het afgelopen jaar veel vragen gekregen over het ontwikkelen van ML- en AI-producten voor klanten en een veelgehoord verhaal dat ik hoor is dat “we veel modellen in productie hebben, maar we begrijpen niet echt waarom ze werken, wanneer ze kapot gaan, en hoe ze te repareren.”

Voor veel bedrijven zijn hun ML/AI-implementaties geëvolueerd tot ongelooflijk complexe systemen en de winnaars zullen niet degenen zijn die de beste en meest nauwkeurige modellen bouwen, maar degenen die deze complexiteit kunnen beheren.

Hoewel het veel eenvoudiger is geworden om ML-modellen te bouwen en in te zetten, is het beheer van de onderliggende gegevens veel moeilijker geworden. Gegevenskwaliteit, toegang en beheer blijven grote uitdagingen voor bedrijven die ML en AI willen benutten.

In mijn ervaring is de belangrijkste uitdaging voor databeheer wat ik 'Data Quality Mismatch' noem. In tegenstelling tot wat vaak wordt gedacht en de eindeloze klachten van datawetenschappers dat hun gegevens van lage kwaliteit zijn, is de kwaliteit gewoon niet hoog genoeg voor het ML- of AI-product dat ze vandaag proberen te bouwen en te onderhouden. Veel bedrijven proberen ML- en AI-oplossingen te bouwen voor complexere producten, met behulp van gegevens die zijn verzameld van oudere, bestaande en eenvoudigere producten. Bijgevolg is de kwaliteit van deze oudere gegevens alleen goed genoeg voor het product waarvoor deze gegevens oorspronkelijk zijn ontworpen. Gegevens kunnen bijvoorbeeld niet zomaar worden verplaatst van een rapportageproduct van lage kwaliteit en opnieuw worden gebruikt in een hoogwaardig ML-product zonder te verwachten dat er talloze en uitputtende problemen met de gegevenskwaliteit zullen optreden. En probleem dat geen materiële impact had op het oorspronkelijke rapportagesysteem.

Het succesvol implementeren van machine learning in een bedrijf vereist een zorgvuldige planning en beheer van de gegevens om ervoor te zorgen dat deze van hoge kwaliteit, nauwkeurig en beschermd zijn. Het is belangrijk voor bedrijven om hun gegevens zorgvuldig te beheren en samen te werken met ervaren machine learning-experts om eventuele problemen met hun modellen te identificeren en aan te pakken.

Omdat ik zoveel problemen zie in ML-productie- en AI-modellen, heb ik in mijn eigen adviespraktijk tools onderzocht en ontwikkeld, zoals de open-source weightwatcher-tool, die bedrijven kan helpen onverwachte en bijna niet-detecteerbare problemen in hun AI-modellen op te sporen. En zonder dat je toegang nodig hebt tot test- of trainingsgegevens. Bekijk het hier.

 
Nima Negahban is de medeoprichter en CEO van Kinetica. Nima heeft de volgende inzichten bijgedragen.

Ooit gedomineerd door toepassingen uit de publieke sector vanwege hun alomtegenwoordige toegang tot de gegevens, zag de commerciële sector in 2022 tientallen toepassingen voor ruimtelijke analyse in productie gaan.

De kosten van sensoren en apparaten die geospatiale gegevens genereren, dalen snel met de overeenkomstige proliferatie. De kosten van locatie-enabled chips voor mobiele connectiviteit zijn de afgelopen 70 jaar met 6% gedaald. De kosten voor het lanceren van een satelliet zijn de afgelopen tien jaar per kilogram sterk gedaald, wat betekent dat er meer satellietlanceringen worden uitgevoerd om gegevens te verzamelen. De uitbreiding van 5G-netwerken helpt bij het verzamelen van grotere hoeveelheden geospatiale gegevens. Het resultaat is dat in 2022 verbonden apparaten die hun locatie kunnen delen meer dan 15 zettabyte aan gegevens genereerden, waardoor locatieverrijkte sensorgegevens de snelst groeiende soort gegevens ter wereld zijn.

Spatio-temporele databases werden volwassen en namen hun aanwezigheid in de cloud toe aan het begin van dit decennium, waardoor datawetenschappers schaalbare tools kregen om datasets op geospatiale dimensies samen te voegen (dwz een long/lat samen te voegen tot een polygoon) en objecten te volgen en te analyseren in beweging. Met name ruimtelijke analyse is extreem rekenintensief, wat historisch gezien de hoeveelheid gegevens die kan worden verwerkt heeft beperkt of waarvoor exotische en dure GPU-architecturen nodig waren die voor de meeste organisaties onbereikbaar waren. Recente ontwikkelingen op het gebied van vectorisatie van query's (ook wel parallellisme op gegevensniveau genoemd) hebben de efficiëntie van vensterfuncties, afgeleide kolommen en predikaatsamenvoegingen aanzienlijk verbeterd, wat essentieel is voor geavanceerde spatio-temporele analyses op schaal.

Vorig jaar zagen innovators in verschillende sectoren hun voordeel doen met de unieke kansen die voortvloeien uit real-time ruimtelijke gegevens. Realtime streams van broodkruimelgegevens van elke verbonden Ford F150 pick-up zijn nu samengesmolten op ruimtelijke dimensies met wegen, laadstations, weersomstandigheden, verkeersgegevens en andere, wat resulteert in nieuwe in-car services. Bij Liberty Mutual worden real-time streams van weersomstandigheden gecombineerd met ruimtelijke dimensies tot voetafdrukken van gebouwen gebruikt om de aansprakelijkheid tijdens catastrofale weersomstandigheden in te schatten, wat resulteert in een nauwkeuriger en tijdiger claimbeheer. Terwijl de energiesector in 2022 snel evolueerde om te reageren op leveringstekorten, combineren bedrijven zoals SM Energy boorbitsensormetingen met geologische metingen op een schaal die voorheen onhandelbaar was, wat resulteert in sneller boren van putten tegen lagere kosten. T-Mobile breidde hun voorsprong uit als het snelste 5G-netwerk, gemeten aan de hand van downloadsnelheden (volgens OpenSignal) door signalen van mobiele telefoons op ruimtelijke dimensies te combineren met gebouwen en wegen om zwakke plekken in de 5G-dekking te detecteren en aan te pakken, wat resulteerde in een betere mobiele service voor klanten.

 
Rosaria Silipo en Roberto Cadili zijn Data Science Evangelists bij MES. Ze hebben bijgedragen aan deze gezamenlijke kijk op de belangrijke aspecten van datawetenschap die in 2022 naar voren kwamen.

In 2022 waren we getuige van een steeds groeiende, sectoroverstijgende en robuuste acceptatie van AI-algoritmen en datawetenschapstechnieken, zowel onder databurgers als in grote organisaties.

Traditionele eenmansbedrijven zoals artsen, leraren, accountants, consultants, auditors, advocaten en vele andere professionele figuren begrepen de waarde van data en omarmden een data-geïnformeerde cultuur om te innoveren en concurrerend te blijven. Om de kloof te dichten, de kosten voor bijscholing (inactieve tijd en geld) te verminderen en de kracht van AI-gestuurde oplossingen te benutten, werd de acceptatie van low-code/no-code datawetenschapsplatforms prominenter dan ooit tevoren. Via intuïtieve visuele interfaces stellen deze platforms data-burgers in staat om data-workflows op te bouwen en samen te werken met software-experts en data-wetenschappers, wat een positief sneeuwbaleffect veroorzaakt op hun werkprestaties.

Aan de andere kant van het spectrum consolideerden en breidden organisaties die in de voorgaande jaren de overgang naar datagestuurde besluitvorming begonnen, de implementatie van geavanceerde AI-oplossingen in 2022 uit. Met de volwassenheid van AI kwam de behoefte aan betrouwbare implementatie, meer ontwikkelingsflexibiliteit en verbeterde operationele efficiëntie, wat leidde tot de invoering van CI/CD-procedures en best practices. Om datawetenschap automatisch te produceren voor constante ontwikkeling, testen, integratie, implementatie, monitoring en versiebeheer, vertrouwden organisaties met volwassen AI steeds meer op intuïtieve SaaS-technologie om teamsamenwerking te versterken, IT-knelpunten te minimaliseren met gecentraliseerd beheer en databeheer, en schaalbaar om elke aantal gebruikers, waarbij een willekeurig aantal workflows in één omgeving wordt uitgevoerd.

De hogere complexiteit en diversificatie van datawetenschapsactiviteiten heeft de standaardisatie van rollen in de analyse-industrie aangescherpt. In 2022 verlieten organisaties het inherent foutieve concept van de 'eenhoorn-datawetenschapper' en gingen ze over op andere dataprofessionals en gestandaardiseerde datarollen. Datacuratoren, data-engineers, data-wetenschappers, data-analisten, automatiseringsspecialisten, ML-engineers – om er maar een paar te noemen – werden erkende functietitels, elk met een specifieke opleidingsachtergrond en vaardigheden.

Ten slotte hebben de AI-volwassenheid van organisaties en het verschijnen op het toneel van databurgers een aantal initiatieven op het gebied van datageletterdheid bevorderd. In navolging van deze behoefte en rekening houdend met het post-covid-scenario, steeg het aantal cursussen, evenementen, boeken, video's, learningathons en andere initiatieven enorm, vooral in de tweede helft van 2022, om aan de vraag te voldoen.

 
Clement Stenac is de mede-oprichter en CTO van Dataiku. Clément bespreekt voorspellingen over de operationalisering van analyses.

2023 wordt een jaar van versnelling voor de operationalisering van het wijdverbreide gebruik van analytics en ML in alle functies van ondernemingen.

Jarenlang hebben early adopters al systemen gebouwd om tal van alledaagse taken te automatiseren en zich te concentreren op activiteiten met een hogere waarde: dit omvatte alles van financiële rapportage tot het opschonen van gegevens en het parseren van documenten.

Ze hebben ook automatisering gecombineerd met traditionele analyses en AI- of ML-activiteiten. De voordelen kunnen aanzienlijk zijn, waarbij bedrijven melding maken van grotere efficiëntie en verbeterde kwaliteitscontrole, met tijd om zich te concentreren op het ontwikkelen van de volgende geweldige ideeën en producten. Doorgaan naar meer diepgaand werk geeft ook een hoger gevoel van voldoening: het geeft mensen het gevoel dat hun baan meer waarde en zin heeft.

Dit alles bij elkaar creëert een sterke stimulans voor meer conservatieve bedrijven om zwaar te investeren in deze praktijken, die vaker wel dan niet worden versneld door werknemers die verlangen naar meer automatisering, meer analyse en meer inzicht. Als het op deze manier vanuit de basis wordt aangestuurd, krijg je steun van de hele organisatie. Het succes van deze initiatieven hangt af van geschikte tooling en standaardprocessen (MLOps, data-ops, soms XOps genoemd) om dergelijke macht over organisaties te verspreiden, met behoud van de juiste controles en governance.

 
De volgende is Kate Strachnyi. Kate is oprichter van GEGEVENSgecertificeerd en auteur van Kleur verstandig. Kate besprak dit jaar kwesties die relevant zijn voor een groot aantal bedrijven op het gebied van analyse en datawetenschap.

Dit jaar waren we getuige van veel ontslagen en ontslagen van data-analyseprofessionals op alle niveaus en bij alle bedrijven. Veel bedrijven werken hard aan het behouden van toptalent, investeren in opleidingsprogramma's en bieden medewerkers groeimogelijkheden. Anderen hebben bezuinigd en aarzelen om in hun mensen te investeren uit angst voor een economische neergang.

Naast economische druk staan ​​technologiebedrijven voor moeilijke beslissingen om hun werknemers op afstand te laten werken in plaats van ze weer op kantoor te laten werken (in ieder geval parttime). Degenen die de juiste balans van flexibiliteit bieden, maken kans om de strijd om toptalent te winnen.

De vraag naar data-analyse, datawetenschap en AI/ML-professionals blijft sterk, aangezien we steeds meer afhankelijk worden van AI om repetitieve taken uit te voeren, evenals nog meer data om te analyseren dan vorig jaar. Een ding dat me opvalt, is dat we nog steeds een kloof zien tussen het aanbod van beschikbaar talent; de meerderheid zijn niet-senior datawetenschappers/data-ingenieurs, en de vraag naar senior dataprofessionals die kunnen voorzien in de behoeften van de inhurende bedrijven. Ik kan niet wachten om te zien wat het nieuwe jaar brengt!

 
Mozes Guttmann, CEO en medeoprichter van ClearML, draagt ​​bij aan deze voorspellingen met betrekking tot geautomatiseerde machine learning-workflows en het einde van het oppotten van talent.

Het automatiseren van ML-workflows wordt steeds belangrijker

Hoewel we hebben gezien dat tal van toptechnologiebedrijven in de tweede helft van 2022 ontslagen aankondigen, is het waarschijnlijk dat geen van deze bedrijven hun meest getalenteerde machine learning-personeel ontslaat. Om de leegte van minder mensen in zeer technische teams op te vullen, zullen bedrijven echter nog verder moeten leunen op automatisering om de productiviteit op peil te houden en ervoor te zorgen dat projecten worden voltooid. We verwachten ook dat bedrijven die ML-technologie gebruiken meer systemen gaan gebruiken om de prestaties te monitoren en te sturen en meer datagestuurde beslissingen te nemen over het managen van ML- of data science-teams. Met duidelijk gedefinieerde doelen zullen deze technische teams meer op KPI's gericht moeten zijn, zodat de leiders een beter inzicht krijgen in de ROI van machine learning. Voorbij zijn de dagen van dubbelzinnige benchmarks voor ML.

Het hamsteren van ML-talent is voorbij

Recente ontslagen, met name degenen die met machine learning werken, zijn waarschijnlijk de meest recente aanwervingen, in tegenstelling tot de meer langdurige medewerkers die al jaren met ML werken. Aangezien ML en AI de afgelopen tien jaar een meer gebruikelijke technologie zijn geworden, begonnen veel grote technologiebedrijven dit soort werknemers in dienst te nemen omdat ze de financiële kosten konden dragen en ze weg konden houden van concurrenten - niet noodzakelijkerwijs omdat ze nodig waren. Vanuit dit perspectief is het niet verwonderlijk dat zoveel ML-werknemers worden ontslagen, gezien het overschot binnen grotere bedrijven. Naarmate het tijdperk van het oppotten van ML-talent echter ten einde loopt, zou dit een nieuwe golf van innovatie en kansen voor startups kunnen inluiden. Met zoveel talent dat nu op zoek is naar werk, zullen we waarschijnlijk veel van deze mensen uit de grote technologie zien druppelen naar kleine en middelgrote bedrijven of startups.

 
Abid Ali Awan is de assistent-redacteur van KDnuggets. Abid bespreekt een aantal belangrijke onderwerpen vanaf 2022.

In 2022 waren er veel baanbrekende ontwikkelingen op het gebied van MLOps-tooling, generatieve kunst, grote taalmodellen en spraakherkenning. OpenAI en Deepmind liepen voorop in de ontwikkeling van AI. Ze komen altijd met de nieuwste modellen die de hele industrie transformeren.

MLOps-tooling

In het verleden waren er beperkte open-sourcetools beschikbaar waarmee we de modellen soepel in productie konden nemen. Of we moeten DevOps-tools gebruiken of unieke oplossingen bedenken. Er was geen one-stop-oplossing. We moesten meerdere MLOps-tools gebruiken voor het volgen van experimenten, metadatabeheer, ML-pijplijnen, versiebeheer van gegevens en pijplijnen en modelbewaking.

Het is allemaal veranderd in 2022, de productgebaseerde bedrijven integreren meer functies voor datawetenschappers en machine learning-engineers om alle MLOps-taken op één platform uit te voeren, zoals DagsHub, Kubeflow en BentoML. Je zult zien dat meer bedrijven zich richten op datawetenschappers en ML-engineers, in plaats van op ontwikkelaars en software-engineers.

generatieve kunst

DALL.E 2 werd geïntroduceerd door OpenAI en kort daarna zagen we dat mensen natuurlijke taal gebruikten om kunst van hoge kwaliteit te genereren. Het was gewoon geweldig. Kort na de lancering zagen we de DALL.E 2 open-sourceversie: Stable Diffusion for generatieve kunst. Het stelt mensen in staat de modelarchitectuur te begrijpen en een unieke oplossing te bedenken, zoals Diffuse The Rest, Runway Inpainting en Stable Diffusion Depth2img. Bovendien hebben we gezien dat meerdere bedrijven generatieve kunst integreren in hun ecosystemen.

Zowel Stable Diffusion als DALL.E 2 zijn nu mainstream.

NLP

We hebben GitHub Copilot een groot taalmodel zien gebruiken voor het genereren van code. Het heeft de manier waarop we coderen volledig veranderd. GitHub Copilot gebruikt de OpenAI Codex om code en volledige functies in realtime voor te stellen, rechtstreeks vanuit uw editor.

Vervolgens introduceerde OpenAI Whisper, dat robuustheid en nauwkeurigheid op menselijk niveau benadert in Engelse spraakherkenning. Het is een beetje beter dan Wav2Vec2 voor de Engelse taal.

Uiteindelijk heeft OpenAI ChatGPT geïntroduceerd, wat beter is dan GPT3. Het is geoptimaliseerd voor conversatie en je zult veel tweets en berichten zien waarin wordt geprezen hoe nauwkeurig ChatGPT op de vraag heeft gereageerd.

We zijn nog ver verwijderd van AGI en we zijn nog ver verwijderd van het bouwen van taalmodellen die beter presteren dan mensen op het gebied van creativiteit en begrip.

 
Matthijs Mayo is datawetenschapper en hoofdredacteur van KDnuggets.

Het grootste deel van het jaar, tot eind november, zou ik hebben gezegd dat tekst-naar-beeldtechnologieën en -toepassingen de ontwikkeling(en) van het jaar, zonder twijfel. Je bent deze het hele jaar door tegengekomen. We hadden DALL-E 2, een enorme stap voorwaarts ten opzichte van zijn voorganger. Midjourney won prijzen voor zijn verfijnde en gestileerde uitvoer. Craiyon (ook bekend als DALL-E mini) maakte de toegang tot deze modellen sneller en gemakkelijker, zelfs met gerenderde afbeeldingen van mindere kwaliteit. Toen kwam Stable Diffusion, van StabilityAI. Stable Diffusion is open source en gratis te gebruiken op je eigen computer als je dat wilt.

De resultaten van deze technologieën zijn allemaal behoorlijk indrukwekkend op zich. Lange tijd leek het erop dat dit veruit het grootste verhaal van 2022 zou worden.

Maar toen, op 30 november, kwam OpenAI uit deze blog post, samen met toegang tot het betreffende model. Het is moeilijk te geloven dat ChatGPT op het moment van publicatie van dit artikel nog maar een maand publiekelijk beschikbaar is.

Het is echter niet moeilijk in te zien hoe je ChatGPT als de grootste ontwikkeling op het gebied van datawetenschap, machine learning, AI en analyse voor 2022 kunt beschouwen. Natuurlijk, het is gebouwd op de schouders van reuzen als GPT3, maar dat maakt het niet minder indrukwekkend. Ik zou kunnen verwijzen naar enkele van de verschillende interessante resultaten van 'chats' met het model, maar u heeft er waarschijnlijk zelf al veel gezien. Mensen hebben het gebruikt als een productiviteitstool, een assistent, een vervanging voor Google, een codebeoordelaar en voor allerlei andere scenario's.

Naar mijn mening kan ik er niet omheen dat ChatGPT laat in het jaar opkwam om de schijnwerpers te stelen met betrekking tot de topontwikkelingen van 2022.

 
En wat dat betreft, onze laatste respondent voor dit jaar is ChatGPT, die we hebben gevraagd mee te wegen op de topontwikkelingen van 2022. (Wat waren volgens jou de belangrijkste ontwikkelingen op het gebied van datawetenschap, machine learning, AI en analyse van 2022?)

Het spijt me, maar mijn kennislimiet is 2021, dus ik kan geen informatie geven over de ontwikkelingen in 2022. Ik kan u echter wel vertellen over enkele belangrijke ontwikkelingen op het gebied van datawetenschap, machine learning, AI en analyse die zich hebben voorgedaan in de Verleden. Enkele voorbeelden zijn de ontwikkeling van deep learning-technieken, het toenemende gebruik van big data en cloud computing in machine learning en AI-toepassingen, de opkomst van automatisering en machine learning in het bedrijfsleven en de industrie, en het toenemende gebruik van data-analyse op verschillende gebieden. .

 
Niet erg nuttig, maar we vonden dat we toch moesten proberen de resultaten te delen.

De reactie maakte ons echter nieuwsgierig om het opnieuw te vragen, maar dit keer over 2021. (Wat waren volgens jou de belangrijkste ontwikkelingen op het gebied van datawetenschap, machine learning, AI en analyse van 2021?)

Er waren in 2021 een aantal belangrijke ontwikkelingen op het gebied van data science, machine learning, AI en analytics. Enkele voorbeelden zijn:

1. Voortdurende groei en ontwikkeling van deep learning-technieken, inclusief het gebruik van transformatoren en andere geavanceerde architecturen voor natuurlijke taalverwerking en computervisietaken.
2. De toenemende acceptatie van machine learning en AI in verschillende sectoren, waaronder financiën, gezondheidszorg en e-commerce.
3. De opkomst van edge computing als een belangrijke factor voor de inzet van AI- en machine learning-modellen in omgevingen met beperkte middelen.
4. Het toenemende gebruik van verklaarbare AI (XAI)-methoden om de interpreteerbaarheid en verantwoording van machine learning-modellen te verbeteren.
5. De ontwikkeling van nieuwe tools en frameworks voor databeheer en -analyse, zoals Dask en Vaex, waarmee grote datasets efficiënt kunnen worden verwerkt.
6. Het groeiende belang van gegevensprivacy en -beveiliging, wat leidt tot de ontwikkeling van nieuwe technieken voor het beschermen van gevoelige gegevens en het voorkomen van datalekken.
7. Het toenemende gebruik van data-analyse op verschillende gebieden, waaronder marketing, supply chain management en cyberbeveiliging.

 
Ik zou dit vaag, maar redelijk nauwkeurig noemen. ChatGPT ziet er niet naar uit dat het vanaf 2021 all-in wil gaan voor iets in het bijzonder.

 
Nou, dat is dat. Ons team van experts heeft meegewogen en we hopen dat hun uiteenlopende inzichten iets interessants voor uw leesplezier hebben opgeleverd.

Tot ziens in 2023!

 
 
Matthijs Mayo (@mattmayo13) is een datawetenschapper en de hoofdredacteur van KDnuggets, het baanbrekende online hulpmiddel voor gegevenswetenschap en machine learning. Zijn interesses liggen in natuurlijke taalverwerking, ontwerp en optimalisatie van algoritmen, leren zonder toezicht, neurale netwerken en geautomatiseerde benaderingen van machine learning. Matthew heeft een master in computerwetenschappen en een graduaat in datamining. Hij is te bereiken via editor1 op kdnuggets[dot]com.
 

spot_img

Laatste intelligentie

spot_img