Zephyrnet-logo

Toegang tot gegevens ontbreekt ernstig in de meeste bedrijven, en 71% gelooft dat synthetische gegevens kunnen helpen - KDnuggets

Datum:

Sponsored Bericht

MOSTLY AI heeft de allereerste synthetische data-enquête in de data science AI/ML-gemeenschap uitgevoerd. Ons doel was om de staat van synthetische data in 2023 te achterhalen. Wat weerhoudt bedrijven er nog van om AI/ML succesvol te adopteren en op te schalen? Hoe goed wordt het concept van door AI gegenereerde synthetische gegevens begrepen? Met welke data-uitdagingen hebben AI/ML-bouwers precies hulp nodig? Hoe werkt datatoegang anno 2023? Hoe kunnen synthetische gegevens hiaten in de gegevens overbruggen en hoe snel zullen ingenieurs de technologie toepassen? 

Het onderzoek is in de eerste helft van 2023 uitgevoerd in samenwerking met KDnuggets, de datawetenschap, machine learning, AI en analysegemeenschap, en meer dan 300 deelnemers.     

Toegang tot gegevens en de stand van synthetische gegevens in 2023

 
 
Toegang tot gegevens ontbreekt in de meeste bedrijven ernstig en 71% gelooft dat synthetische gegevens kunnen helpen

Toegang tot gegevens ontbreekt in de meeste bedrijven ernstig en 71% gelooft dat synthetische gegevens kunnen helpen
 

TL;DR: Gemiddeld is slechts 15% van de AI/ML-modellen in productie. Met betrekking tot de reden achter het mislukken van AI/ML-projecten noemde 35% een gebrek aan AI/ML-talent, terwijl 28% een gebrek aan gegevenstoegang de schuld gaf. Eenenzestig procent van de respondenten merkte op dat het maanden duurt om toegang te krijgen tot kwaliteitsgegevens, en 71% was het ermee eens dat synthetische gegevens het ontbrekende stukje van de puzzel zijn dat nodig is om AI/ML-projecten te laten slagen.

De stand van synthetische data in 2023 wordt sterk beïnvloed door de hype rond generatieve AI en de alomtegenwoordige opkomst van AI-aangedreven technologieën, dankzij de recente LLM-doorbraken. Hier bij MOSTLY AI hebben we een piek in inkomende verzoeken en algemene vragen ervaren sinds ChatGPT mainstream werd. 

Mensen zijn enthousiast om AI te gebruiken in hun dagelijkse werk en zoeken naar gestructureerde gegevensalternatieven via generatieve AI-superkrachten. Hoewel LLM's een heel ander beest zijn, met vooraf getrainde modellen en begeleid leren, kunnen AI-aangedreven synthetische gegevensgeneratoren gegevenstoegang bieden tot representatieve synthetische gegevens die gemakkelijk kunnen worden gebruikt als vervanging voor originele gegevens. Synthetische gegevens bieden een privacyveilige manier om gegevenstoegang te democratiseren en gegevenssets aan te passen aan specifieke doeleinden. Het resultaat is een kortere time-to-data, eenvoudigere gegevenstoegang en automatisering van datawetenschapstaak. 

Synthetische datageneratoren helpen nu al mensen die met gestructureerde data werken, van datawetenschappers tot AI/ML-engineers. Maar hoe goed wordt de categorie begrepen en hoe ver zijn we met volledige acceptatie? 

Tobi Hann, de CEO van MOSTLY AI, zegt: 

Synthetische dataplatforms veranderen de manier waarop we met data werken en ook hoe we datagerichte AI/ML in alle sectoren ontwikkelen. We zien tegenwoordig de hoogste acceptatiepercentages in gebieden waar een grote hoeveelheid gevoelige en bedrijfskritische gegevens worden verwerkt, zoals banken, verzekeringen en gezondheidszorg. Dit jaar is de interesse in het domein van synthetische data tot dusver verder toegenomen, en ik vermoed dat dit, in ieder geval gedeeltelijk, te danken is aan alle aandacht die ChatGPT heeft besteed aan de generatieve AI-scene.”

Toegang tot gegevens blijft echter een probleem voor de meeste organisaties en privacykwesties zijn urgenter dan ooit. Hoewel de urgentie om AI toe te passen en te schalen voelbaar is in alle sectoren, zijn er problemen met gegevensprivacy en een gebrek aan bewustzijn van privacyverhogende technologieën, zoals synthetische gegevens, voorkomen dat de meeste bedrijven profiteren van de verschuiving naar door AI ondersteund werk en diensten. 

Waarom AI/ML-projecten niet van de grond komen

 
Terwijl steeds meer mensen AI-aangedreven tools in hun tech-stack omarmen, is grootschalige inzet van AI/ML-modellen nog steeds een beperkt voorrecht. Er is vooruitgang zichtbaar, maar het is nog steeds moeilijk om AI/ML in productie te nemen. Toch doen bedrijven meer dan ooit hun best om dit mogelijk te maken. Terwijl projecten voor het ontwikkelen en opschalen van AI of geavanceerde ML jaren geleden schaars waren, probeert iedereen deze projecten nu met een nieuw gevoel van urgentie te realiseren. Ondanks de ambities zijn gelukkige eindes nog steeds moeilijk te vinden.

We vroegen respondenten naar de reden voor het uitblijven van AI/ML-projecten. Van de respondenten noemde 35% een gebrek aan AI/ML-talent, terwijl 28% een gebrek aan gegevenstoegang de schuld gaf. Het oplossen van deze problemen is geen gemakkelijke taak, en we zijn ervan overtuigd dat door AI gegenereerde synthetische gegevens op beide fronten kunnen helpen.

Toegang tot gegevens: het grootste knelpunt

 
 
Toegang tot gegevens ontbreekt in de meeste bedrijven ernstig en 71% gelooft dat synthetische gegevens kunnen helpen

Toegang tot gegevens ontbreekt in de meeste bedrijven ernstig en 71% gelooft dat synthetische gegevens kunnen helpen
 

De meest schokkende gegevens die tijdens de enquête werden verzameld, waren deze: slechts 18% van de respondenten zei dat toegang tot kwaliteitsgegevens voor hen geen probleem is. Voor 20% duurt het weken, terwijl het voor 61% van de ondervraagden maanden duurt om gegevenstoegang te krijgen. Geen wonder dat datagerichte projecten niet van de grond komen.

Het is gemakkelijk voor OpenAI om LLM's te trainen op openbaar beschikbare corpora (uiteraard zijn er auteursrechtkwesties in behandeling), maar voor het gemiddelde datateam zijn zelfs hun interne gegevensactiva opgesloten door intern beleid, vernietigd door gegevensmaskering en alleen beschikbaar voor specifieke gebruiksgevallen. Willen bedrijven de AI-race bijbenen, dan moet hier snel verandering in komen. AI/ML-talent heeft ook datatoegang nodig om te kunnen groeien en zowel expertise als domeinkennis te ontwikkelen. 

Met speelgoeddatasets kom je maar zo ver, vooral wanneer je aan je data science-reis begint en je aannames wilt testen. De ontwikkeling van in-house talent en de opkomst van citizen data scientists kunnen niet zonder betekenis van de grond komen democratisering van gegevens inspanningen, wat ook een kwestie van gegevenstoegang is.

Het ontbrekende stukje van de AI/ML-puzzel

 
 
Toegang tot gegevens ontbreekt in de meeste bedrijven ernstig en 71% gelooft dat synthetische gegevens kunnen helpen

Toegang tot gegevens ontbreekt in de meeste bedrijven ernstig en 71% gelooft dat synthetische gegevens kunnen helpen
 
Synthetische gegevensversies zijn de gemakkelijkste middelen om gegevenstoegang en onbeperkt gegevensverbruik te versnellen. Van de respondenten was 71% het ermee eens dat synthetische gegevens het ontbrekende puzzelstukje zijn voor het slagen van AI/ML-projecten. We zijn goed op weg om de schatting van Gartner te halen dat in 2030 synthetische gegevens de echte gegevens in AI-modellen volledig zullen overschaduwen. Het lijkt op synthetische data is inderdaad de toekomst van AI.

 
Toegang tot gegevens ontbreekt in de meeste bedrijven ernstig en 71% gelooft dat synthetische gegevens kunnen helpen

Toegang tot gegevens ontbreekt in de meeste bedrijven ernstig en 71% gelooft dat synthetische gegevens kunnen helpen
 

Tweeënzeventig procent van de 332 respondenten van de enquête is van plan om een AI-aangedreven synthetische gegevensgenerator binnen de komende paar jaar, en bijna 40% is van plan er de komende drie maanden een te gebruiken, waarbij de meeste mensen data-augmentatie als hun belangrijkste use-case noemen (46%).
Hoewel de opwinding groot is, toonde het onderzoek ook aan dat er meer behoefte is aan voorlichting aan de datagemeenschap over de voordelen, beperkingen en use-cases van synthetische data. 

Misvattingen zijn wijdverspreid, zelfs onder AI/ML-experts

 
Er bestaat nog veel verwarring rond de term “synthetische data”; 59% van de respondenten wist het niet het verschil tussen op regels gebaseerde en AI-gegenereerde synthetische data. Dit suggereert dat synthetische databedrijven een enorme verantwoordelijkheid hebben om dataconsumenten op te leiden en uit de eerste hand te leren hoe het is om met synthetische versies van echte datasets te werken en hoe je dit goed kunt doen. Gratis, robuuste synthetische datageneratoren met eenvoudig te gebruiken gebruikersinterfaces in combinatie met API-opties, zoals het synthetische dataplatform van MOSTLY AI, hebben de meeste kans om het publiek te onderwijzen.

“We moeten mensen flink opvoeden. Aangezien we dag in dag uit met synthetische gegevens werken, nemen we veel gerelateerde kennis als vanzelfsprekend aan, en pas wanneer gesprekken op een dieper niveau komen, realiseren we ons dat zelfs ingenieurs soms fundamentele misverstanden hebben over de manier waarop het genereren van synthetische gegevens werkt en de use cases die het kan oplossen. Onze eerste prioriteit is om mensen hands-on te krijgen met synthetische datatechnologie, zodat ze echt leren wat de mogelijkheden zijn in hun dagelijkse taken en misschien zelfs nieuwe manieren ontdekken om met synthetische data te werken waar we niet aan hadden gedacht.” voegde Tobi Han toe.

Synthetisch datapotentieel

 
Gevraagd naar de meest gebruikte hulpmiddelen voor het anonimiseren van gegevens en technieken, zei 49% van de respondenten dat ze gegevensmaskering gebruiken om gegevens te anonimiseren. Twintig procent zei dat ze eenvoudigweg PII uit datasets verwijderen - een aanpak die niet alleen onveilig is vanuit het oogpunt van privacy, maar ook het gegevensnut kan vernietigen dat nodig is voor hoogwaardige trainingsgegevens. Privacybevorderende technologieën, zoals homomorfe encryptie, AI-gegenereerde synthetische gegevens en andere, zijn goed voor 31%. 

Er is zeker ruimte om te groeien en gewoontes rond data-anonimisering en data-voorbereiding ten goede te veranderen. MOSTLY AI's team zal de trends in synthetische gegevens in de gaten blijven houden en volgend jaar zullen we het onderzoek herhalen. Als u op de hoogte wilt blijven van het laatste nieuws over synthetische data - of het nu gaat om de nieuwste onderzoeksresultaten, regelgeving of de zakelijke kant van de zaak - meld u aan voor de maandelijkse Synthetic Data-nieuwsbrief!

Als u klaar bent om de toegang tot gegevens in uw bedrijf te versnellen of als u onze ultramoderne functies voor gegevensvergroting wilt uitproberen, meld u aan voor uw gratis-voor altijd account om aan de slag te gaan met het gebruiksvriendelijke en veilige platform voor synthetische gegevens van MOSTLY AI. Ons team is direct beschikbaar vanuit de app om u te helpen het meeste uit het genereren van synthetische gegevens te halen.
 

spot_img

Laatste intelligentie

spot_img