De opkomst van generatieve AI was voor verschillende vooraanstaande bedrijven aanleiding om het gebruik ervan te beperken vanwege het verkeerd omgaan met gevoelige interne gegevens. Volgens CNN, Sommige bedrijven hebben interne verboden opgelegd aan generatieve AI-tools terwijl ze de technologie beter willen begrijpen, en velen hebben ook het gebruik van interne ChatGPT geblokkeerd.
Bedrijven accepteren nog steeds vaak het risico van het gebruik van interne gegevens bij het verkennen van grote taalmodellen (LLM's), omdat deze contextuele gegevens LLM's in staat stellen om van algemene naar domeinspecifieke kennis te veranderen. In de generatieve AI of traditionele AI-ontwikkelingscyclus fungeert data-inname als toegangspunt. Hier kunnen ruwe gegevens die zijn afgestemd op de vereisten van een bedrijf worden verzameld, voorbewerkt, gemaskeerd en getransformeerd in een formaat dat geschikt is voor LLM's of andere modellen. Momenteel bestaat er geen gestandaardiseerd proces om de uitdagingen op het gebied van gegevensopname te overwinnen, maar de nauwkeurigheid van het model hangt ervan af.
4 risico's van slecht opgenomen gegevens
- Het genereren van verkeerde informatie: Wanneer een LLM wordt getraind op besmette gegevens (gegevens die fouten of onnauwkeurigheden bevatten), kan deze onjuiste antwoorden genereren, wat leidt tot gebrekkige besluitvorming en mogelijke opeenvolgende problemen.
- Verhoogde variantie: Variantie meet consistentie. Onvoldoende gegevens kunnen in de loop van de tijd tot uiteenlopende antwoorden leiden, of tot misleidende uitschieters, wat vooral gevolgen heeft voor kleinere datasets. Een hoge variantie in een model kan erop wijzen dat het model werkt met trainingsgegevens, maar niet geschikt is voor gebruik in de praktijk in de praktijk.
- Beperkt gegevensbereik en niet-representatieve antwoorden: Wanneer gegevensbronnen restrictief of homogeen zijn of onjuiste duplicaten bevatten, kunnen statistische fouten zoals steekproefvertekening alle resultaten vertekenen. Dit kan ertoe leiden dat het model hele gebieden, afdelingen, demografische gegevens, bedrijfstakken of bronnen uitsluit van het gesprek.
- Uitdagingen bij het corrigeren van bevooroordeelde gegevens: Als de gegevens vanaf het begin vertekend zijn, “de enige manier om met terugwerkende kracht een deel van die gegevens te verwijderen, is door het algoritme helemaal opnieuw te trainen.” Het is moeilijk voor LLM-modellen om antwoorden af te leren die zijn afgeleid van niet-representatieve of besmette gegevens wanneer deze zijn gevectoriseerd. Deze modellen hebben de neiging hun begrip te versterken op basis van eerder geassimileerde antwoorden.
Het verwerken van gegevens moet vanaf het begin op de juiste manier gebeuren, omdat verkeerd gebruik ervan tot een groot aantal nieuwe problemen kan leiden. De basis van trainingsgegevens in een AI-model is vergelijkbaar met het besturen van een vliegtuig. Als de starthoek één graad afwijkend is, landt u mogelijk op een geheel nieuw continent dan verwacht.
De hele generatieve AI-pijplijn is afhankelijk van de datapijplijnen die deze pijplijn ondersteunen, waardoor het absoluut noodzakelijk is om de juiste voorzorgsmaatregelen te nemen.
4 belangrijke componenten om betrouwbare gegevensopname te garanderen
- Gegevenskwaliteit en -beheer: Datakwaliteit betekent het waarborgen van de veiligheid van databronnen, het onderhouden van holistische data en het verstrekken van duidelijke metadata. Dit kan ook het werken met nieuwe gegevens met zich meebrengen via methoden zoals webscrapen of uploaden. Gegevensbeheer is een continu proces in de levenscyclus van gegevens om de naleving van wetten en best practices van het bedrijf te helpen garanderen.
- Gegevens integratie: Met deze tools kunnen bedrijven ongelijksoortige gegevensbronnen combineren op één veilige locatie. Een populaire methode is extract, load, transform (ELT). In een ELT-systeem worden datasets geselecteerd uit geïsoleerde magazijnen, getransformeerd en vervolgens geladen in bron- of doeldatapools. ELT-tools zoals IBM® DataStage® faciliteren snelle en veilige transformaties via parallelle verwerkingsengines. In 2023 ontvangt de gemiddelde onderneming honderden uiteenlopende datastromen, waardoor efficiënte en nauwkeurige datatransformaties cruciaal zijn voor de ontwikkeling van traditionele en nieuwe AI-modellen.
- Gegevens opschonen en voorbewerken: Dit omvat het formatteren van gegevens om te voldoen aan specifieke LLM-trainingsvereisten, orkestratietools of gegevenstypen. Tekstgegevens kunnen worden gesegmenteerd of getokeniseerd, terwijl afbeeldingsgegevens kunnen worden opgeslagen als inbedding. Uitgebreide transformaties kunnen worden uitgevoerd met behulp van data-integratietools. Het kan ook nodig zijn om onbewerkte gegevens rechtstreeks te manipuleren door duplicaten te verwijderen of gegevenstypen te wijzigen.
- Gegevens opslag: Nadat gegevens zijn opgeschoond en verwerkt, ontstaat de uitdaging van gegevensopslag. De meeste gegevens worden in de cloud of op locatie gehost, waardoor bedrijven moeten beslissen waar ze hun gegevens willen opslaan. Het is belangrijk om voorzichtig te zijn bij het gebruik van externe LLM's voor het omgaan met gevoelige informatie, zoals persoonlijke gegevens, interne documenten of klantgegevens. LLM's spelen echter een cruciale rol bij het verfijnen of implementeren van een op retrieval-augmentedgeneration (RAG) gebaseerde aanpak. Om risico’s te beperken is het belangrijk om zoveel mogelijk data-integratieprocessen op interne servers uit te voeren. Een mogelijke oplossing is het gebruik van externe runtime-opties zoals .
Start uw gegevensopname met IBM
IBM DataStage stroomlijnt de data-integratie door verschillende tools te combineren, waardoor u moeiteloos data kunt ophalen, organiseren, transformeren en opslaan die nodig zijn voor AI-trainingsmodellen in een hybride cloudomgeving. Dataprofessionals van alle vaardigheidsniveaus kunnen met de tool aan de slag door GUI's zonder code te gebruiken of toegang te krijgen tot API's met begeleide aangepaste code.
De nieuwe DataStage as a Service Anywhere remote runtime-optie biedt flexibiliteit om uw datatransformaties uit te voeren. Hiermee kunt u de parallelle engine overal gebruiken, waardoor u ongekende controle heeft over de locatie. DataStage as a Service Anywhere manifesteert zich als een lichtgewicht container, waardoor u alle mogelijkheden voor gegevenstransformatie in elke omgeving kunt uitvoeren. Hierdoor kunt u veel van de valkuilen van slechte data-opname vermijden terwijl u data-integratie, opschoning en voorverwerking uitvoert binnen uw virtuele privécloud. Met DataStage behoudt u de volledige controle over de beveiliging, gegevenskwaliteit en effectiviteit, en komt u tegemoet aan al uw gegevensbehoeften voor generatieve AI-initiatieven.
Hoewel er vrijwel geen grenzen zijn aan wat met generatieve AI kan worden bereikt, zijn er wel grenzen aan de gegevens die een model gebruikt – en die gegevens kunnen net zo goed het verschil maken.
Boek een bijeenkomst voor meer informatie
Probeer DataStage met de data-integratieproef
Meer van Kunstmatige intelligentie
IBM-nieuwsbrieven
Ontvang onze nieuwsbrieven en onderwerpupdates die de nieuwste thought leadership en inzichten over opkomende trends bieden.
Abonneer nu
Meer nieuwsbrieven
- Door SEO aangedreven content en PR-distributie. Word vandaag nog versterkt.
- PlatoData.Network Verticale generatieve AI. Versterk jezelf. Toegang hier.
- PlatoAiStream. Web3-intelligentie. Kennis versterkt. Toegang hier.
- PlatoESG. carbon, CleanTech, Energie, Milieu, Zonne, Afvalbeheer. Toegang hier.
- Plato Gezondheid. Intelligentie op het gebied van biotech en klinische proeven. Toegang hier.
- Bron: https://www.ibm.com/blog/the-importance-of-data-ingestion-and-integration-for-enterprise-ai/