Logo Zéphyrnet

L'importance de l'ingestion et de l'intégration des données pour l'IA d'entreprise – IBM Blog

Date :


L'importance de l'ingestion et de l'intégration des données pour l'IA d'entreprise – IBM Blog



Jeune femme et collègue masculin écrivant des idées sur des notes adhésives

L’émergence de l’IA générative a incité plusieurs grandes entreprises à restreindre son utilisation en raison d’une mauvaise gestion des données internes sensibles. Selon CNN, Certaines entreprises ont imposé des interdictions internes sur les outils d'IA générative alors qu'elles cherchaient à mieux comprendre la technologie et beaucoup ont également bloqué l'utilisation de ChatGPT interne.

Les entreprises acceptent encore souvent le risque d'utiliser des données internes lors de l'exploration de grands modèles de langage (LLM), car ce sont ces données contextuelles qui permettent aux LLM de passer d'une connaissance générale à une connaissance spécifique à un domaine. Dans le cycle de développement de l’IA générative ou de l’IA traditionnelle, l’ingestion de données sert de point d’entrée. Ici, les données brutes adaptées aux besoins d'une entreprise peuvent être collectées, prétraitées, masquées et transformées dans un format adapté aux LLM ou à d'autres modèles. Actuellement, il n’existe aucun processus standardisé pour surmonter les défis liés à l’ingestion de données, mais la précision du modèle en dépend.

 4 risques de données mal ingérées

  1. Génération de désinformation : Lorsqu'un LLM est formé sur des données contaminées (données contenant des erreurs ou des inexactitudes), il peut générer des réponses incorrectes, conduisant à une prise de décision erronée et à des problèmes potentiels en cascade. 
  2. Variation accrue : La variance mesure la cohérence. Des données insuffisantes peuvent conduire à des réponses variables au fil du temps ou à des valeurs aberrantes trompeuses, affectant particulièrement les ensembles de données plus petits. Une variance élevée dans un modèle peut indiquer que le modèle fonctionne avec des données de formation mais qu'il est inadéquat pour les cas d'utilisation réels de l'industrie.
  3. Portée limitée des données et réponses non représentatives : Lorsque les sources de données sont restrictives, homogènes ou contiennent des doublons erronés, des erreurs statistiques telles que le biais d'échantillonnage peuvent fausser tous les résultats. Cela peut amener le modèle à exclure de la conversation des zones, des départements, des données démographiques, des industries ou des sources entières.
  4. Défis liés à la rectification des données biaisées : Si les données sont biaisées dès le départ, «la seule façon de supprimer rétroactivement une partie de ces données est de recycler l'algorithme à partir de zéro.» Il est difficile pour les modèles LLM de désapprendre les réponses dérivées de données non représentatives ou contaminées lorsqu’elles ont été vectorisées. Ces modèles tendent à renforcer leur compréhension à partir de réponses préalablement assimilées.

L’ingestion de données doit être effectuée correctement dès le départ, car une mauvaise gestion peut entraîner une multitude de nouveaux problèmes. Les bases des données d’entraînement dans un modèle d’IA sont comparables au pilotage d’un avion. Si l'angle de décollage est décalé d'un degré, vous pourriez atterrir sur un continent entièrement nouveau que prévu.

L’ensemble du pipeline d’IA générative dépend des pipelines de données qui l’autorisent, ce qui rend impératif de prendre les précautions appropriées.

4 composants clés pour garantir une ingestion de données fiable

  1. Qualité des données et gouvernance : La qualité des données signifie garantir la sécurité des sources de données, conserver des données globales et fournir des métadonnées claires. Cela peut également impliquer de travailler avec de nouvelles données via des méthodes telles que le web scraping ou le téléchargement. Gouvernance des données Il s'agit d'un processus continu dans le cycle de vie des données visant à garantir la conformité aux lois et aux meilleures pratiques de l'entreprise.
  2. Intégration de données: Ces outils permettent aux entreprises de combiner des sources de données disparates en un seul emplacement sécurisé. Une méthode populaire est l’extraction, le chargement, la transformation (ELT). Dans un système ELT, les ensembles de données sont sélectionnés dans des entrepôts cloisonnés, transformés puis chargés dans des pools de données sources ou cibles. Des outils ELT tels que IBM® DataStage® faciliter des transformations rapides et sécurisées grâce à des moteurs de traitement parallèles. En 2023, l’entreprise moyenne reçoit des centaines de flux de données disparates, ce qui rend les transformations de données efficaces et précises cruciales pour le développement de modèles d’IA traditionnels et nouveaux.
  3. Nettoyage et prétraitement des données : Cela inclut le formatage des données pour répondre aux exigences spécifiques de la formation LLM, aux outils d'orchestration ou aux types de données. Les données textuelles peuvent être fragmentées ou tokenisées, tandis que les données d'imagerie peuvent être stockées sous forme d'intégrations. Des transformations complètes peuvent être réalisées à l’aide d’outils d’intégration de données. En outre, il peut s'avérer nécessaire de manipuler directement les données brutes en supprimant les doublons ou en modifiant les types de données.
  4. Stockage de données: Une fois les données nettoyées et traitées, le défi du stockage des données se pose. La plupart des données sont hébergées dans le cloud ou sur site, ce qui oblige les entreprises à prendre des décisions quant à l'endroit où stocker leurs données. Il est important d’être prudent lors de l’utilisation de LLM externes pour traiter des informations sensibles telles que des données personnelles, des documents internes ou des données clients. Cependant, les LLM jouent un rôle essentiel dans le réglage précis ou la mise en œuvre d’une approche basée sur la génération augmentée par récupération (RAG). Pour atténuer les risques, il est important d’exécuter autant de processus d’intégration de données que possible sur les serveurs internes. Une solution potentielle consiste à utiliser des options d’exécution à distance telles que .

Démarrez votre ingestion de données avec IBM

IBM DataStage rationalise l'intégration des données en combinant divers outils, vous permettant d'extraire, d'organiser, de transformer et de stocker sans effort les données nécessaires aux modèles de formation d'IA dans un environnement de cloud hybride. Les praticiens des données de tous niveaux peuvent interagir avec l'outil en utilisant des interfaces graphiques sans code ou accéder aux API avec un code personnalisé guidé.

La nouvelle option d'exécution à distance DataStage as a Service Anywhere offre la flexibilité nécessaire pour exécuter vos transformations de données. Il vous permet d'utiliser le moteur parallèle de n'importe où, vous donnant un contrôle sans précédent sur son emplacement. DataStage as a Service Anywhere se présente sous la forme d'un conteneur léger, vous permettant d'exécuter toutes les fonctionnalités de transformation de données dans n'importe quel environnement. Cela vous permet d'éviter de nombreux pièges liés à une mauvaise ingestion de données lorsque vous exécutez l'intégration, le nettoyage et le prétraitement des données au sein de votre cloud privé virtuel. Avec DataStage, vous conservez un contrôle total sur la sécurité, la qualité et l'efficacité des données, répondant ainsi à tous vos besoins en données pour les initiatives d'IA générative.

Même s’il n’y a pratiquement aucune limite à ce qui peut être réalisé avec l’IA générative, il existe des limites aux données utilisées par un modèle, et ces données peuvent tout aussi bien faire toute la différence.

Réservez une réunion pour en savoir plus

Essayez DataStage avec l'essai d'intégration de données


Plus de Intelligence artificielle




Le nouveau modèle vocal large Watsonx d'IBM apporte l'IA générative au téléphone

3 min lire - Presque tout le monde a entendu parler des grands modèles de langage, ou LLM, depuis que l'IA générative est entrée dans notre lexique quotidien grâce à ses étonnantes capacités de génération de texte et d'images, et sa promesse de révolution dans la façon dont les entreprises gèrent les fonctions commerciales essentielles. Aujourd'hui plus que jamais, l'idée de parler à l'IA via une interface de chat ou de lui demander d'effectuer des tâches spécifiques pour vous est une réalité tangible. D’énormes progrès sont en cours pour adopter cette technologie afin d’avoir un impact positif sur les expériences quotidiennes des individus et…




Cinq types d'apprentissage automatique à connaître

5 min lire - Les technologies d'apprentissage automatique (ML) peuvent guider la prise de décision dans pratiquement tous les secteurs, des soins de santé aux ressources humaines en passant par la finance, et dans une myriade de cas d'utilisation, comme la vision par ordinateur, les grands modèles de langage (LLM), la reconnaissance vocale, les voitures autonomes et bien plus encore. Cependant, l’influence croissante du ML n’est pas sans complications. Les ensembles de données de validation et de formation qui sous-tendent la technologie ML sont souvent agrégés par des êtres humains, et les humains sont sensibles aux biais et aux erreurs. Même dans les cas où un modèle ML n’est pas lui-même biaisé…




Tendances du service client que les organisations gagnantes doivent suivre

4 min lire - Prêter attention aux dernières tendances en matière de service client garantit qu'une organisation est prête à répondre aux attentes changeantes des clients. La fidélité des clients diminue, stimulée par la pandémie de COVID-19, les influences sociales et la facilité de changer de marque. Plus que jamais, les organisations doivent rester au courant des changements dans l’expérience du service client pour améliorer la satisfaction des clients et répondre à leurs besoins croissants. Une étude Gartner de 2023 a révélé que 58 % des dirigeants ont identifié la croissance de leur entreprise comme l'un de leurs objectifs les plus importants.…




Cinq outils d'IA open source à connaître

5 min lire - L'intelligence artificielle (IA) open source fait référence aux technologies d'IA dont le code source est librement disponible pour que quiconque puisse l'utiliser, le modifier et le distribuer. Lorsque les algorithmes d'IA, les modèles pré-entraînés et les ensembles de données sont disponibles pour une utilisation et une expérimentation publiques, des applications créatives d'IA émergent alors qu'une communauté de bénévoles passionnés s'appuie sur les travaux existants et accélère le développement de solutions pratiques d'IA. En conséquence, ces technologies conduisent souvent aux meilleurs outils pour relever des défis complexes dans de nombreux cas d’utilisation en entreprise.…

Bulletins d'information IBM

Recevez nos newsletters et nos mises à jour thématiques qui fournissent les dernières idées en matière de leadership éclairé et d'informations sur les tendances émergentes.

S'abonner

Plus de newsletters

spot_img

Dernières informations

spot_img