Zephyrnet-logotyp

syntetiska data

Datum:

Vad är syntetiska data?

Syntetisk data är information som är artificiellt tillverkad snarare än genererad av verkliga händelser. Den är skapad algoritmiskt och används som en stand-in för testdatauppsättningar av produktions- eller driftsdata, för att validera matematiska modeller och för att träna maskininlärning (ML) modeller.

Även om det är svårt, dyrt och tidskrävande att samla in högkvalitativ data från den verkliga världen, gör syntetisk datateknik det möjligt för användare att snabbt, enkelt och digitalt generera data i vilken mängd de önskar, anpassad efter deras specifika behov.

Varför är syntetisk data viktig?

Användningen av syntetisk data vinner bred acceptans eftersom det kan ge flera fördelar jämfört med verklig data. Gartner förutspådde att år 2024 kommer 60 % av den data som används för att utveckla AI och analys att vara artificiellt framställda.

Den största tillämpningen av syntetiska data finns i utbildning av neurala nätverk och ML-modeller, som utvecklarna av dessa modeller behöver noggrant märkta data set som kan variera från några tusen till tiotals miljoner artiklar. Syntetisk data kan genereras på konstgjord väg för att efterlikna verkliga datamängder, vilket gör det möjligt för företag att skapa en mångsidig och stor mängd träningsdata utan att spendera mycket pengar och tid. Enligt Paul Walborsky, medgrundare av AI.Reverie, en av de första dedikerade syntetiska datatjänsterna, kan en enda bild som skulle kosta $6 från en märkningstjänst artificiellt genereras för 6 cent.

[Inbäddat innehåll]

Syntetisk data kan också användas för att skydda användarnas integritet och följa integritetslagar, särskilt när man hanterar känsliga hälso- och personuppgifter. Dessutom kan den användas till minska bias i datamängder genom att se till att konsumenter har tillgång till olika data som korrekt skildrar den verkliga världen.

Hur genereras syntetisk data?

Processen att generera syntetisk data skiljer sig åt med hjälp av verktyg och algoritmer används och det specifika användningsfallet.

Image showing how a GAN is trained
Den generativa kontradiktoriska nätverksutbildningsprocessen är ett populärt tillvägagångssätt som används för att producera AI-genererat innehåll.

Följande är tre vanliga tekniker som används för att skapa syntetisk data:

  1. Rita siffror från en distribution. Att slumpmässigt välja nummer från en distribution är en vanlig metod för att skapa syntetisk data. Även om den här metoden inte fångar insikterna från verklig data, kan den producera en datadistribution som liknar verklig data.
  2. Agentbaserad modellering. Denna simuleringsteknik innebär att man skapar unika agenter som kommunicerar med varandra. Dessa metoder är särskilt användbara när man undersöker hur olika agenter - som mobiltelefoner, människor eller till och med datorprogram - interagerar med varandra i ett komplext system. Genom att använda förbyggda kärnkomponenter, Python paket, som Mesa, gör det enklare att snabbt utveckla agentbaserade modeller och se dem via ett webbläsarbaserat gränssnitt.
  3. Generativa modeller. Dessa algoritmer kan generera syntetiska data som replikerar de statistiska egenskaperna eller funktionerna i verklig data. Generativa modeller använd en uppsättning träningsdata för att lära dig de statistiska mönstren och sambanden i data och använd sedan denna kunskap för att generera nya syntetiska data som liknar originaldata. Exempel på generativa modeller inkluderar generativa motverkande nätverk och variativa autokodare.

Vilka är fördelarna med syntetisk data?

Syntetisk data erbjuder följande fördelar:

  • Anpassningsbar data. En organisation kan anpassa syntetisk data efter sina behov, skräddarsy data till vissa förhållanden som inte kan erhållas med autentisk data. De kan också generera datamängder för mjukvarutestning och kvalitetssäkring (QA) syften för DevOps lag.
  • Kostnadseffektiv. Syntetisk data är ett billigt alternativ till verklig data. Till exempel kan verklig trafikolycksdata kosta en biltillverkare mer att samla in än simulerad data.
  • Datamärkning. Även när syntetisk data är tillgänglig är den inte alltid märkt. För övervakad inlärning uppgifter, manuell märkning av en mängd instanser kan vara tidskrävande och felbenägen. Syntetiskt märkta data kan skapas för att påskynda modellutvecklingsprocessen. Dessutom garanterar det märkningsnoggrannhet.
  • Snabbare produktion. Eftersom syntetisk data inte samlas in från faktiska händelser, är det möjligt att skapa en datauppsättning snabbare med rätt programvara och teknik. Som ett resultat kan en betydande mängd artificiell data skapas på kortare tid.
  • Komplett anteckning. Perfekt anteckning eliminerar behovet av manuell datainsamling. Varje objekt i en scen kan automatiskt skapa en mängd olika kommentarer. Detta är också en av huvudorsakerna till att syntetisk data är så billig jämfört med riktig data.
  • Dataintegritet. Även om syntetiska data kan likna verkliga data, bör de inte innehålla någon information som kan användas för att identifiera den verkliga data. Denna egenskap gör den syntetiska datan anonym och lämplig för spridning och kan vara en stor pluspunkt för sjukvården och läkemedelsindustrin.
  • Full användarkontroll. En syntetisk datasimulering möjliggör fullständig kontroll över varje aspekt. Den person som hanterar datamängden kan styra händelsefrekvens, artikelfördelning och många andra faktorer. ML-utövare har också total kontroll över datamängden när de använder syntetisk data. Några exempel inkluderar kontroll av graden av klassseparationer, samplingsstorlek och brusnivå i datamängden.

Syntetisk data har också vissa nackdelar, inklusive inkonsekvenser när man försöker replikera komplexiteten som finns i den ursprungliga datamängden och oförmågan att ersätta autentisk data direkt, eftersom korrekt, autentisk data fortfarande krävs för att producera användbara syntetiska exempel på informationen.

Vilka är användningsfallen för syntetiska data?

Syntetiska data bör på lämpligt sätt återspegla den ursprungliga data som den strävar efter att förbättra. Typiska användningsfall för syntetiska data inkluderar följande:

  • Testning. Jämfört med regelbaserad testdata, syntetiska testdata är lättare att skapa och erbjuder flexibilitet, skalbarhet och realism. För datadriven testning och mjukvaruutveckling, syntetisk data är avgörande.
  • AI/ML modellutbildning. Syntetisk data används i allt större utsträckning för att träna AI-modeller, eftersom den ofta överträffar verkliga data och är avgörande för att utveckla överlägsna AI-modeller. Modellprestandan förbättras av syntetisk träningsdata, vilket också eliminerar fördomar och lägger till ny domänkunskap och förklaringsmöjligheter. Förutom att den är helt sekretesskompatibel, förbättrar den också originaldata tack vare arten av den AI-drivna syntetiseringsprocessen. Till exempel, i artificiell träningsdata kan ovanliga mönster och händelser samplas upp.
  • Integritetsbestämmelser. Syntetisk data gör det möjligt för datavetare att följa datasekretesslagar, såsom Sjukförsäkringsportabilitet och ansvarsskyldighet, Allmän uppgiftsskyddsförordning och California Consumer Privacy Act. Det är också det bästa alternativet när du använder känsliga datauppsättningar för testning eller träning. Syntetisk data gör det möjligt för organisationer att få insikter utan att äventyra integritetsefterlevnaden.
  • Hälsa och integritet. Hälso- och integritetsuppgifter är särskilt lämpliga för ett syntetiskt tillvägagångssätt eftersom integritetsreglerna sätter betydande begränsningar på dessa områden. Genom att använda syntetisk data kan forskare extrahera den information de behöver utan att inkräkta på människors integritet. Eftersom syntetiska data inte representerar data från faktiska patienter, är det extremt osannolikt att det resulterar i återidentifiering av en faktisk patient eller deras personuppgifter. Syntetisk data har också en stor fördel framför datamaskering tekniker, som innebär större integritetsrelaterade risker.

Vilka är exempel på syntetiska data?

Syntetisk data används i många olika branscher för olika användningsfall. Följande är några exempel på syntetiska dataapplikationer:

  • Mediadata. I detta fall används datorgrafik och bildbehandlingsalgoritmer för att generera syntetiska bilder, ljud och video. Till exempel använder Amazon syntetisk data för att träna Amazon Alexas språksystem.
  • Textdata. Detta kan inkludera chatbots, maskinöversättningsalgoritmer och sentimental analys baserad på artificiellt genererad textdata. ChatGPT är ett exempel på ett verktyg som använder textdata.
  • Tabelldata. Denna består av syntetiskt genererade datatabeller som används för dataanalys, modellträning och andra applikationer.
  • Ostrukturerad data. Ostrukturerad data kan innehålla bilder, video och ljuddata som mestadels används inom områden som t.ex dator vision, taligenkänning och autonom fordonsteknik. Till exempel använder Googles Waymo syntetisk data för att träna sina självkörande bilar.
  • Data om finansiella tjänster. Den finansiella sektorn är starkt beroende av syntetiska data, särskilt för upptäckt av bedrägerier, riskhantering och kreditriskbedömningar. Till exempel använder JPMorgan och American Express syntetiska finansiella data för att förbättra upptäckten av bedrägerier.
  • Tillverkningsdata. Tillverkningsindustrin använder syntetiska data för kvalitetskontrolltestning och prediktivt underhåll. Till exempel testar det tyska försäkringsbolaget Provinzial syntetisk data för prediktiv analys.

Syntetisk data kontra verklig data

Finansiella tjänster och hälsovård är två branscher som drar nytta av syntetiska datatekniker. Teknikerna kan användas för att tillverka data med attribut som liknar faktiska känsliga eller reglerade data. Detta gör det möjligt för dataproffs att använda och dela data mer fritt.

Syntetisk data gör till exempel det möjligt för vårdpersonal att göra det möjligt för allmänheten att använda data på rekordnivå men ändå behålla patientens konfidentialitet.

Inom finanssektorn kan syntetiska datamängder, såsom betal- och kreditkortsbetalningar, som ser ut och fungerar som typiska transaktionsdata hjälpa till att avslöja bedräglig aktivitet. Datavetare kan använda syntetiska data för att testa eller utvärdera system för upptäckt av bedrägerier, samt utveckla nya metoder för att upptäcka bedrägerier. Syntetiska finansiella datauppsättningar finns på Kaggle, a folkmassan plattform som är värd för prediktiva modellerings- och analystävlingar.

DevOps-team använder syntetisk data för mjukvarutestning och QA. De kan koppla in artificiellt genererad data i en process utan att ta autentisk data ur produktion. Vissa experter rekommenderar dock att DevOps-team väljer datamaskeringstekniker framför syntetiska datatekniker eftersom produktionsdatauppsättningar innehåller komplexa relationer som gör det svårt att tillverka en korrekt representation snabbt och billigt.

Syntetisk data och maskininlärning

Syntetisk data vinner dragkraft inom maskininlärningsdomänen. ML-algoritmer tränas med hjälp av en enorm mängd data, och att samla in den nödvändiga mängden märkt träningsdata kan vara kostsamt.

Syntetiskt genererad data kan hjälpa företag och forskare att bygga datalager som behövs för att träna och till och med förträna ML-modeller, en teknik som kallas överför lärande.

Forskningsinsatser för att främja användningen av syntetisk data i ML pågår. Till exempel dokumenterade medlemmar av Data to AI Lab vid Massachusetts Institute of Technology Laboratory for Information and Decision Systems de senaste framgångarna som det hade med sitt Synthetic Data Vault, som kan konstruera ML-modeller för att automatiskt generera och extrahera sin egen syntetiska data.

Företag börjar också experimentera med syntetiska datatekniker. Till exempel använde ett team på Deloitte LLC syntetisk data för att bygga en korrekt modell genom att på konstgjord väg tillverka 80 % av träningsdatan, med riktiga data som frödata. Datorseende, bildigenkänning och robotik är ytterligare applikationer som drar nytta av användningen av syntetiska data.

[Inbäddat innehåll]

Vad är historien om syntetiska data?

Syntetisk data går tillbaka till tillkomsten av databehandling på 1970-talet. De flesta initiala system och algoritmer var beroende av data för att fungera. Men begränsad behandlingskapacitet, utmaningar med att samla in stora mängder data och integritetsproblem ledde till att syntetiska data skapades.

I kölvattnet av ImageNet-tävlingen 2012 – vanligen kallad Big Bang of AI – lyckades en grupp forskare under ledning av Geoff Hinton träna ett artificiellt neuralt nätverk för att vinna en utmaning för bildklassificering med en häpnadsväckande stor marginal. Forskare började leta efter artificiell data på allvar när det avslöjades att neurala nätverk kunde känna igen föremål snabbare än människor.

Maskininlärning kan använda syntetisk data för att ta bort partiskhet, demokratisera data, förbättra integriteten och minska kostnaderna. Lära sig hur syntetiska data kan lösa problem med partiskhet och integritet inom maskininlärning.

plats_img

Senaste intelligens

plats_img