Zephyrnet-logo

Het belang van gegevensopname en -integratie voor zakelijke AI – IBM Blog

Datum:


Het belang van gegevensopname en -integratie voor zakelijke AI – IBM Blog



Jonge vrouw en mannelijke collega schrijven ideeën op zelfklevende notities

De opkomst van generatieve AI was voor verschillende vooraanstaande bedrijven aanleiding om het gebruik ervan te beperken vanwege het verkeerd omgaan met gevoelige interne gegevens. Volgens CNN, Sommige bedrijven hebben interne verboden opgelegd aan generatieve AI-tools terwijl ze de technologie beter willen begrijpen, en velen hebben ook het gebruik van interne ChatGPT geblokkeerd.

Bedrijven accepteren nog steeds vaak het risico van het gebruik van interne gegevens bij het verkennen van grote taalmodellen (LLM's), omdat deze contextuele gegevens LLM's in staat stellen om van algemene naar domeinspecifieke kennis te veranderen. In de generatieve AI of traditionele AI-ontwikkelingscyclus fungeert data-inname als toegangspunt. Hier kunnen ruwe gegevens die zijn afgestemd op de vereisten van een bedrijf worden verzameld, voorbewerkt, gemaskeerd en getransformeerd in een formaat dat geschikt is voor LLM's of andere modellen. Momenteel bestaat er geen gestandaardiseerd proces om de uitdagingen op het gebied van gegevensopname te overwinnen, maar de nauwkeurigheid van het model hangt ervan af.

 4 risico's van slecht opgenomen gegevens

  1. Het genereren van verkeerde informatie: Wanneer een LLM wordt getraind op besmette gegevens (gegevens die fouten of onnauwkeurigheden bevatten), kan deze onjuiste antwoorden genereren, wat leidt tot gebrekkige besluitvorming en mogelijke opeenvolgende problemen. 
  2. Verhoogde variantie: Variantie meet consistentie. Onvoldoende gegevens kunnen in de loop van de tijd tot uiteenlopende antwoorden leiden, of tot misleidende uitschieters, wat vooral gevolgen heeft voor kleinere datasets. Een hoge variantie in een model kan erop wijzen dat het model werkt met trainingsgegevens, maar niet geschikt is voor gebruik in de praktijk in de praktijk.
  3. Beperkt gegevensbereik en niet-representatieve antwoorden: Wanneer gegevensbronnen restrictief of homogeen zijn of onjuiste duplicaten bevatten, kunnen statistische fouten zoals steekproefvertekening alle resultaten vertekenen. Dit kan ertoe leiden dat het model hele gebieden, afdelingen, demografische gegevens, bedrijfstakken of bronnen uitsluit van het gesprek.
  4. Uitdagingen bij het corrigeren van bevooroordeelde gegevens: Als de gegevens vanaf het begin vertekend zijn, “de enige manier om met terugwerkende kracht een deel van die gegevens te verwijderen, is door het algoritme helemaal opnieuw te trainen.” Het is moeilijk voor LLM-modellen om antwoorden af ​​te leren die zijn afgeleid van niet-representatieve of besmette gegevens wanneer deze zijn gevectoriseerd. Deze modellen hebben de neiging hun begrip te versterken op basis van eerder geassimileerde antwoorden.

Het verwerken van gegevens moet vanaf het begin op de juiste manier gebeuren, omdat verkeerd gebruik ervan tot een groot aantal nieuwe problemen kan leiden. De basis van trainingsgegevens in een AI-model is vergelijkbaar met het besturen van een vliegtuig. Als de starthoek één graad afwijkend is, landt u mogelijk op een geheel nieuw continent dan verwacht.

De hele generatieve AI-pijplijn is afhankelijk van de datapijplijnen die deze pijplijn ondersteunen, waardoor het absoluut noodzakelijk is om de juiste voorzorgsmaatregelen te nemen.

4 belangrijke componenten om betrouwbare gegevensopname te garanderen

  1. Gegevenskwaliteit en -beheer: Datakwaliteit betekent het waarborgen van de veiligheid van databronnen, het onderhouden van holistische data en het verstrekken van duidelijke metadata. Dit kan ook het werken met nieuwe gegevens met zich meebrengen via methoden zoals webscrapen of uploaden. Gegevensbeheer is een continu proces in de levenscyclus van gegevens om de naleving van wetten en best practices van het bedrijf te helpen garanderen.
  2. Gegevens integratie: Met deze tools kunnen bedrijven ongelijksoortige gegevensbronnen combineren op één veilige locatie. Een populaire methode is extract, load, transform (ELT). In een ELT-systeem worden datasets geselecteerd uit geïsoleerde magazijnen, getransformeerd en vervolgens geladen in bron- of doeldatapools. ELT-tools zoals IBM® DataStage® faciliteren snelle en veilige transformaties via parallelle verwerkingsengines. In 2023 ontvangt de gemiddelde onderneming honderden uiteenlopende datastromen, waardoor efficiënte en nauwkeurige datatransformaties cruciaal zijn voor de ontwikkeling van traditionele en nieuwe AI-modellen.
  3. Gegevens opschonen en voorbewerken: Dit omvat het formatteren van gegevens om te voldoen aan specifieke LLM-trainingsvereisten, orkestratietools of gegevenstypen. Tekstgegevens kunnen worden gesegmenteerd of getokeniseerd, terwijl afbeeldingsgegevens kunnen worden opgeslagen als inbedding. Uitgebreide transformaties kunnen worden uitgevoerd met behulp van data-integratietools. Het kan ook nodig zijn om onbewerkte gegevens rechtstreeks te manipuleren door duplicaten te verwijderen of gegevenstypen te wijzigen.
  4. Gegevens opslag: Nadat gegevens zijn opgeschoond en verwerkt, ontstaat de uitdaging van gegevensopslag. De meeste gegevens worden in de cloud of op locatie gehost, waardoor bedrijven moeten beslissen waar ze hun gegevens willen opslaan. Het is belangrijk om voorzichtig te zijn bij het gebruik van externe LLM's voor het omgaan met gevoelige informatie, zoals persoonlijke gegevens, interne documenten of klantgegevens. LLM's spelen echter een cruciale rol bij het verfijnen of implementeren van een op retrieval-augmentedgeneration (RAG) gebaseerde aanpak. Om risico’s te beperken is het belangrijk om zoveel mogelijk data-integratieprocessen op interne servers uit te voeren. Een mogelijke oplossing is het gebruik van externe runtime-opties zoals .

Start uw gegevensopname met IBM

IBM DataStage stroomlijnt de data-integratie door verschillende tools te combineren, waardoor u moeiteloos data kunt ophalen, organiseren, transformeren en opslaan die nodig zijn voor AI-trainingsmodellen in een hybride cloudomgeving. Dataprofessionals van alle vaardigheidsniveaus kunnen met de tool aan de slag door GUI's zonder code te gebruiken of toegang te krijgen tot API's met begeleide aangepaste code.

De nieuwe DataStage as a Service Anywhere remote runtime-optie biedt flexibiliteit om uw datatransformaties uit te voeren. Hiermee kunt u de parallelle engine overal gebruiken, waardoor u ongekende controle heeft over de locatie. DataStage as a Service Anywhere manifesteert zich als een lichtgewicht container, waardoor u alle mogelijkheden voor gegevenstransformatie in elke omgeving kunt uitvoeren. Hierdoor kunt u veel van de valkuilen van slechte data-opname vermijden terwijl u data-integratie, opschoning en voorverwerking uitvoert binnen uw virtuele privécloud. Met DataStage behoudt u de volledige controle over de beveiliging, gegevenskwaliteit en effectiviteit, en komt u tegemoet aan al uw gegevensbehoeften voor generatieve AI-initiatieven.

Hoewel er vrijwel geen grenzen zijn aan wat met generatieve AI kan worden bereikt, zijn er wel grenzen aan de gegevens die een model gebruikt – en die gegevens kunnen net zo goed het verschil maken.

Boek een bijeenkomst voor meer informatie

Probeer DataStage met de data-integratieproef


Meer van Kunstmatige intelligentie




IBM's nieuwe watsonx grote spraakmodel brengt generatieve AI naar de telefoon

3 min gelezen - Bijna iedereen heeft wel eens gehoord van grote taalmodellen, oftewel LLM’s, sinds generatieve AI ons dagelijkse lexicon is binnengedrongen dankzij de verbazingwekkende mogelijkheden om tekst en afbeeldingen te genereren, en de belofte ervan als een revolutie in de manier waarop ondernemingen met hun kernactiviteiten omgaan. De gedachte om via een chatinterface met AI te praten of deze specifieke taken voor u te laten uitvoeren, is nu meer dan ooit een tastbare realiteit. Er vinden enorme stappen plaats om deze technologie toe te passen en zo een positieve invloed te hebben op de dagelijkse ervaringen als individu en…




Vijf machine learning-typen om te kennen

5 min gelezen - Machine learning (ML)-technologieën kunnen de besluitvorming in vrijwel alle sectoren stimuleren, van gezondheidszorg tot human resources tot financiën en in talloze gebruiksscenario's, zoals computervisie, grote taalmodellen (LLM's), spraakherkenning, zelfrijdende auto's en meer. De groeiende invloed van ML is echter niet zonder complicaties. De validatie- en trainingsdatasets die ten grondslag liggen aan ML-technologie worden vaak door mensen samengevoegd, en mensen zijn vatbaar voor vooroordelen en fouten. Zelfs in gevallen waarin een ML-model zelf niet bevooroordeeld is...




Klantenservicetrends die winnende organisaties moeten volgen

4 min gelezen - Aandacht besteden aan de nieuwste trends op het gebied van klantenservice zorgt ervoor dat een organisatie voorbereid is op veranderende klantverwachtingen. De loyaliteit van klanten neemt af, onder impuls van de COVID-19-pandemie, sociale invloeden en het gemak waarmee van merk kan worden gewisseld. Meer dan ooit moeten organisaties op de hoogte blijven van veranderingen in de klantenservice-ervaring om de klanttevredenheid te verbeteren en aan de toegenomen klantbehoeften te voldoen. Uit een onderzoek van Gartner uit 2023 bleek dat 58% van de leiders bedrijfsgroei als een van hun belangrijkste doelen identificeerde.




Vijf open-source AI-tools om te kennen

5 min gelezen - Open-source kunstmatige intelligentie (AI) verwijst naar AI-technologieën waarbij de broncode voor iedereen vrij beschikbaar is om te gebruiken, aan te passen en te verspreiden. Wanneer AI-algoritmen, vooraf getrainde modellen en datasets beschikbaar zijn voor openbaar gebruik en experimenten, ontstaan ​​creatieve AI-toepassingen doordat een gemeenschap van vrijwilligers enthousiast voortbouwt op bestaand werk en de ontwikkeling van praktische AI-oplossingen versnelt. Als gevolg hiervan leiden deze technologieën vaak tot de beste tools om complexe uitdagingen in veel zakelijke toepassingen aan te pakken.…

IBM-nieuwsbrieven

Ontvang onze nieuwsbrieven en onderwerpupdates die de nieuwste thought leadership en inzichten over opkomende trends bieden.

Abonneer nu

Meer nieuwsbrieven

spot_img

Laatste intelligentie

spot_img