L’émergence de l’IA générative a incité plusieurs grandes entreprises à restreindre son utilisation en raison d’une mauvaise gestion des données internes sensibles. Selon CNN, Certaines entreprises ont imposé des interdictions internes sur les outils d'IA générative alors qu'elles cherchaient à mieux comprendre la technologie et beaucoup ont également bloqué l'utilisation de ChatGPT interne.
Les entreprises acceptent encore souvent le risque d'utiliser des données internes lors de l'exploration de grands modèles de langage (LLM), car ce sont ces données contextuelles qui permettent aux LLM de passer d'une connaissance générale à une connaissance spécifique à un domaine. Dans le cycle de développement de l’IA générative ou de l’IA traditionnelle, l’ingestion de données sert de point d’entrée. Ici, les données brutes adaptées aux besoins d'une entreprise peuvent être collectées, prétraitées, masquées et transformées dans un format adapté aux LLM ou à d'autres modèles. Actuellement, il n’existe aucun processus standardisé pour surmonter les défis liés à l’ingestion de données, mais la précision du modèle en dépend.
4 risques de données mal ingérées
- Génération de désinformation : Lorsqu'un LLM est formé sur des données contaminées (données contenant des erreurs ou des inexactitudes), il peut générer des réponses incorrectes, conduisant à une prise de décision erronée et à des problèmes potentiels en cascade.
- Variation accrue : La variance mesure la cohérence. Des données insuffisantes peuvent conduire à des réponses variables au fil du temps ou à des valeurs aberrantes trompeuses, affectant particulièrement les ensembles de données plus petits. Une variance élevée dans un modèle peut indiquer que le modèle fonctionne avec des données de formation mais qu'il est inadéquat pour les cas d'utilisation réels de l'industrie.
- Portée limitée des données et réponses non représentatives : Lorsque les sources de données sont restrictives, homogènes ou contiennent des doublons erronés, des erreurs statistiques telles que le biais d'échantillonnage peuvent fausser tous les résultats. Cela peut amener le modèle à exclure de la conversation des zones, des départements, des données démographiques, des industries ou des sources entières.
- Défis liés à la rectification des données biaisées : Si les données sont biaisées dès le départ, «la seule façon de supprimer rétroactivement une partie de ces données est de recycler l'algorithme à partir de zéro.» Il est difficile pour les modèles LLM de désapprendre les réponses dérivées de données non représentatives ou contaminées lorsqu’elles ont été vectorisées. Ces modèles tendent à renforcer leur compréhension à partir de réponses préalablement assimilées.
L’ingestion de données doit être effectuée correctement dès le départ, car une mauvaise gestion peut entraîner une multitude de nouveaux problèmes. Les bases des données d’entraînement dans un modèle d’IA sont comparables au pilotage d’un avion. Si l'angle de décollage est décalé d'un degré, vous pourriez atterrir sur un continent entièrement nouveau que prévu.
L’ensemble du pipeline d’IA générative dépend des pipelines de données qui l’autorisent, ce qui rend impératif de prendre les précautions appropriées.
4 composants clés pour garantir une ingestion de données fiable
- Qualité des données et gouvernance : La qualité des données signifie garantir la sécurité des sources de données, conserver des données globales et fournir des métadonnées claires. Cela peut également impliquer de travailler avec de nouvelles données via des méthodes telles que le web scraping ou le téléchargement. Gouvernance des données Il s'agit d'un processus continu dans le cycle de vie des données visant à garantir la conformité aux lois et aux meilleures pratiques de l'entreprise.
- Intégration de données: Ces outils permettent aux entreprises de combiner des sources de données disparates en un seul emplacement sécurisé. Une méthode populaire est l’extraction, le chargement, la transformation (ELT). Dans un système ELT, les ensembles de données sont sélectionnés dans des entrepôts cloisonnés, transformés puis chargés dans des pools de données sources ou cibles. Des outils ELT tels que IBM® DataStage® faciliter des transformations rapides et sécurisées grâce à des moteurs de traitement parallèles. En 2023, l’entreprise moyenne reçoit des centaines de flux de données disparates, ce qui rend les transformations de données efficaces et précises cruciales pour le développement de modèles d’IA traditionnels et nouveaux.
- Nettoyage et prétraitement des données : Cela inclut le formatage des données pour répondre aux exigences spécifiques de la formation LLM, aux outils d'orchestration ou aux types de données. Les données textuelles peuvent être fragmentées ou tokenisées, tandis que les données d'imagerie peuvent être stockées sous forme d'intégrations. Des transformations complètes peuvent être réalisées à l’aide d’outils d’intégration de données. En outre, il peut s'avérer nécessaire de manipuler directement les données brutes en supprimant les doublons ou en modifiant les types de données.
- Stockage de données: Une fois les données nettoyées et traitées, le défi du stockage des données se pose. La plupart des données sont hébergées dans le cloud ou sur site, ce qui oblige les entreprises à prendre des décisions quant à l'endroit où stocker leurs données. Il est important d’être prudent lors de l’utilisation de LLM externes pour traiter des informations sensibles telles que des données personnelles, des documents internes ou des données clients. Cependant, les LLM jouent un rôle essentiel dans le réglage précis ou la mise en œuvre d’une approche basée sur la génération augmentée par récupération (RAG). Pour atténuer les risques, il est important d’exécuter autant de processus d’intégration de données que possible sur les serveurs internes. Une solution potentielle consiste à utiliser des options d’exécution à distance telles que .
Démarrez votre ingestion de données avec IBM
IBM DataStage rationalise l'intégration des données en combinant divers outils, vous permettant d'extraire, d'organiser, de transformer et de stocker sans effort les données nécessaires aux modèles de formation d'IA dans un environnement de cloud hybride. Les praticiens des données de tous niveaux peuvent interagir avec l'outil en utilisant des interfaces graphiques sans code ou accéder aux API avec un code personnalisé guidé.
La nouvelle option d'exécution à distance DataStage as a Service Anywhere offre la flexibilité nécessaire pour exécuter vos transformations de données. Il vous permet d'utiliser le moteur parallèle de n'importe où, vous donnant un contrôle sans précédent sur son emplacement. DataStage as a Service Anywhere se présente sous la forme d'un conteneur léger, vous permettant d'exécuter toutes les fonctionnalités de transformation de données dans n'importe quel environnement. Cela vous permet d'éviter de nombreux pièges liés à une mauvaise ingestion de données lorsque vous exécutez l'intégration, le nettoyage et le prétraitement des données au sein de votre cloud privé virtuel. Avec DataStage, vous conservez un contrôle total sur la sécurité, la qualité et l'efficacité des données, répondant ainsi à tous vos besoins en données pour les initiatives d'IA générative.
Même s’il n’y a pratiquement aucune limite à ce qui peut être réalisé avec l’IA générative, il existe des limites aux données utilisées par un modèle, et ces données peuvent tout aussi bien faire toute la différence.
Réservez une réunion pour en savoir plus
Essayez DataStage avec l'essai d'intégration de données
Plus de Intelligence artificielle
Bulletins d'information IBM
Recevez nos newsletters et nos mises à jour thématiques qui fournissent les dernières idées en matière de leadership éclairé et d'informations sur les tendances émergentes.
S'abonner
Plus de newsletters
- Contenu propulsé par le référencement et distribution de relations publiques. Soyez amplifié aujourd'hui.
- PlatoData.Network Ai générative verticale. Autonomisez-vous. Accéder ici.
- PlatoAiStream. Intelligence Web3. Connaissance Amplifiée. Accéder ici.
- PlatonESG. Carbone, Technologie propre, Énergie, Environnement, Solaire, La gestion des déchets. Accéder ici.
- PlatoHealth. Veille biotechnologique et essais cliniques. Accéder ici.
- La source: https://www.ibm.com/blog/the-importance-of-data-ingestion-and-integration-for-enterprise-ai/