Logo Zéphyrnet

L'accès aux données fait cruellement défaut dans la plupart des entreprises, et 71% pensent que les données synthétiques peuvent aider - KDnuggets

Date :

Sponsored Posts

MOSTLY AI a mené la toute première enquête de données synthétiques dans la communauté IA/ML de la science des données. Notre objectif était de déterminer l'état des données synthétiques en 2023. Qu'est-ce qui empêche encore les entreprises d'adopter et de faire évoluer avec succès l'IA/ML ? Dans quelle mesure le concept de données synthétiques générées par l'IA est-il bien compris ? Quels sont les défis de données exacts pour lesquels les constructeurs d'IA/ML ont besoin d'aide ? Comment fonctionne l'accès aux données en 2023 ? Comment les données synthétiques peuvent-elles combler les lacunes en matière de données et dans combien de temps les ingénieurs adopteront-ils la technologie ? 

L'enquête a été menée au premier semestre 2023 en coopération avec KDnuggets, la communauté de la science des données, de l'apprentissage automatique, de l'IA et de l'analyse, et plus de 300 participants.     

Accès aux données et état des données synthétiques en 2023

 
 
L'accès aux données fait cruellement défaut dans la plupart des entreprises, et 71 % pensent que les données synthétiques peuvent aider

L'accès aux données fait cruellement défaut dans la plupart des entreprises, et 71 % pensent que les données synthétiques peuvent aider
 

TL;DR : En moyenne, seuls 15 % des modèles AI/ML sont en production. En ce qui concerne la raison de l'échec des projets d'IA/ML, 35 % ont cité un manque de talents en IA/ML, tandis que 28 % ont blâmé un manque d'accès aux données. Soixante et un pour cent des personnes interrogées ont indiqué qu'il faut des mois pour accéder à des données de qualité, 71 % convenant que les données synthétiques sont la pièce manquante du puzzle nécessaire à la réussite des projets d'IA/ML.

L'état des données synthétiques en 2023 est fortement influencé par le battage médiatique autour de l'IA générative et le boom omniprésent des technologies alimentées par l'IA, grâce aux récentes percées du LLM. Chez MOSTLY AI, nous avons connu un pic de demandes entrantes et de demandes générales depuis que ChatGPT est devenu courant. 

Les gens sont ravis de tirer parti de l'IA dans leur travail quotidien et recherchent des alternatives de données structurées via les superpuissances génératives de l'IA. Alors que les LLM sont une bête complètement différente, avec des modèles pré-formés et un apprentissage supervisé, les générateurs de données synthétiques alimentés par l'IA peuvent fournir un accès aux données synthétiques représentatives qui peuvent être facilement utilisées en remplacement des données d'origine. Les données synthétiques offrent un moyen sécurisé de démocratiser l'accès aux données et d'augmenter les ensembles de données pour répondre à des objectifs spécifiques. Le résultat est un délai d'accès aux données plus court, un accès plus facile aux données et une automatisation des tâches de science des données. 

Les générateurs de données synthétiques aident déjà les personnes qui travaillent avec des données structurées, des data scientists aux ingénieurs IA/ML. Mais dans quelle mesure la catégorie est-elle bien comprise et où en sommes-nous pour une adoption à grande échelle ? 

Tobi Hann, PDG de MOSTLY AI, déclare : 

Les plateformes de données synthétiques changent notre façon de travailler avec les données et aussi la façon dont nous développons l'IA/ML centrée sur les données dans tous les secteurs. Nous constatons aujourd'hui les taux d'adoption les plus élevés dans les domaines où une grande quantité de données sensibles et critiques pour l'entreprise sont traitées, comme la banque, l'assurance et la santé. Cette année, jusqu'à présent, l'intérêt pour le domaine des données synthétiques s'est encore accru, et je soupçonne que, au moins en partie, cela est dû à toute l'attention que ChatGPT a apportée à la scène de l'IA générative.

Cependant, l'accès aux données reste un problème pour la plupart des organisations, et les préoccupations en matière de confidentialité sont plus pressantes que jamais. Bien que l'urgence d'adopter et de développer l'IA soit tangible dans tous les secteurs, les problèmes de confidentialité des données et le manque de sensibilisation à technologies de protection de la vie privée, telles que les données synthétiques, empêchent la plupart des entreprises de tirer parti de la transition vers le travail et les services soutenus par l'IA. 

Pourquoi les projets d'IA/ML ne se matérialisent pas

 
Alors que de plus en plus de personnes adoptent des outils alimentés par l'IA dans leur pile technologique, le déploiement à grande échelle de modèles AI/ML reste un privilège limité. Les progrès sont visibles, mais la mise en production de l'IA/ML reste difficile. Pourtant, les entreprises se bousculent plus que jamais pour que cela se produise. Alors que les projets de développement et de mise à l'échelle de l'IA ou du ML sophistiqué étaient rares il y a des années, tout le monde essaie maintenant de concrétiser ces projets avec un nouveau sentiment d'urgence. Malgré les ambitions, les fins heureuses sont encore difficiles à trouver.

Nous avons demandé aux personnes interrogées la raison de l'échec des projets d'IA/ML à se concrétiser. Parmi les répondants, 35 % ont cité un manque de talents en IA/ML, tandis que 28 % ont blâmé un manque d'accès aux données. Résoudre ces problèmes n'est pas une tâche facile, et nous sommes convaincus que les données synthétiques générées par l'IA peuvent aider sur les deux fronts.

Accès aux données : le plus grand goulot d'étranglement

 
 
L'accès aux données fait cruellement défaut dans la plupart des entreprises, et 71 % pensent que les données synthétiques peuvent aider

L'accès aux données fait cruellement défaut dans la plupart des entreprises, et 71 % pensent que les données synthétiques peuvent aider
 

Les données les plus choquantes recueillies au cours de l'enquête étaient les suivantes : seuls 18 % des répondants ont déclaré que l'accès à des données de qualité ne leur posait aucun problème. Pour 20 %, cela prend des semaines, tandis que pour 61 % des personnes interrogées, il faut des mois pour obtenir l'accès aux données. Pas étonnant que les projets centrés sur les données ne décollent pas.

Il est facile pour OpenAI de former des LLM sur des corpus accessibles au public (problèmes de droits d'auteur en suspens, bien sûr), mais pour l'équipe de données moyenne, même leurs actifs de données internes sont verrouillés par des politiques internes, détruits par le masquage des données et uniquement disponibles pour cas d'utilisation spécifiques. Si les entreprises veulent suivre le rythme de la course à l'IA, cela doit changer rapidement. Les talents en IA/ML ont également besoin d'un accès aux données pour pouvoir grandir et développer leur expertise ainsi que leurs connaissances du domaine. 

Les ensembles de données jouets ne vous mènent que très loin, en particulier lorsque vous commencez votre voyage en science des données et que vous souhaitez tester vos hypothèses. Le développement des talents internes et la montée en puissance des citoyens data scientists ne peuvent décoller sans une démocratisation des données efforts, ce qui est aussi un problème d'accès aux données.

La pièce manquante du puzzle AI/ML

 
 
L'accès aux données fait cruellement défaut dans la plupart des entreprises, et 71 % pensent que les données synthétiques peuvent aider

L'accès aux données fait cruellement défaut dans la plupart des entreprises, et 71 % pensent que les données synthétiques peuvent aider
 
Les versions de données synthétiques sont les actifs les plus simples pour accélérer l'accès aux données et la consommation illimitée de données. Parmi les répondants, 71 % ont convenu que les données synthétiques sont la pièce manquante du puzzle pour que les projets d'IA/ML réussissent. Nous sommes en bonne voie pour atteindre l'estimation de Gartner selon laquelle d'ici 2030, les données synthétiques éclipseront complètement les données réelles dans les modèles d'IA. On dirait les données synthétiques sont en effet l'avenir de l'IA.

 
L'accès aux données fait cruellement défaut dans la plupart des entreprises, et 71 % pensent que les données synthétiques peuvent aider

L'accès aux données fait cruellement défaut dans la plupart des entreprises, et 71 % pensent que les données synthétiques peuvent aider
 

Soixante-douze pour cent des 332 répondants au sondage prévoient d'utiliser un Générateur de données synthétiques alimenté par l'IA dans les prochaines années, et près de 40 % prévoient d'en utiliser un dans les trois prochains mois, la plupart des personnes citant l'augmentation des données comme leur principal cas d'utilisation (46 %).
Bien que l'enthousiasme soit élevé, l'enquête a également mis en évidence un besoin accru d'éduquer la communauté des données sur les avantages, les limites et les cas d'utilisation des données synthétiques. 

Les idées fausses sont répandues, même parmi les experts en IA/ML

 
Il y a encore beaucoup de confusion autour du terme « données synthétiques » ; 59% des répondants ne savaient pas la différence entre les données synthétiques basées sur des règles et générées par l'IA. Cela suggère que les entreprises de données synthétiques ont l'énorme responsabilité d'éduquer les consommateurs de données et d'apprendre de première main ce que c'est que de travailler avec des versions synthétiques d'ensembles de données réels et comment bien le faire. Générateurs de données synthétiques gratuits et robustes avec des interfaces utilisateur faciles à utiliser couplées à des options d'API, comme la plate-forme de données synthétiques de MOSTLY AI, sont les plus susceptibles de réussir à éduquer le public.

« Nous devons éduquer les gens en grand. Étant donné que nous travaillons jour après jour avec des données synthétiques, nous prenons beaucoup de connaissances connexes pour acquises, et ce n'est que lorsque les conversations atteignent un niveau plus profond que nous réalisons que parfois même les ingénieurs ont des malentendus fondamentaux sur le fonctionnement de la génération de données synthétiques et le cas d'utilisation qu'il est capable de résoudre. Notre priorité numéro un est de permettre aux gens de se familiariser avec la technologie des données synthétiques, afin qu'ils apprennent vraiment les capacités de leurs tâches quotidiennes et pourraient même découvrir de nouvelles façons de travailler avec des données synthétiques auxquelles nous n'avions pas pensé », a ajouté Tobi Hann.

Potentiel de données synthétiques

 
Lorsqu'on leur demande quel est le plus utilisé outils d'anonymisation des données et techniques, 49 % des personnes interrogées ont déclaré utiliser le masquage des données pour anonymiser les données. Vingt pour cent ont déclaré qu'ils supprimaient simplement les PII des ensembles de données - une approche qui n'est pas seulement dangereuse du point de vue de la confidentialité, mais peut également détruire l'utilité des données nécessaire pour des données de formation de haute qualité. Technologies de protection de la vie privée, comme le chiffrement homomorphe, les données synthétiques générées par l'IA et autres, représentent 31 %. 

Il y a certainement de la place pour grandir et changer les habitudes autour de l'anonymisation des données et de la préparation des données pour le mieux. L'équipe de MOSTLY AI continuera de surveiller les tendances des données synthétiques, et nous répéterons l'enquête l'année prochaine. Si vous souhaitez rester au courant des dernières nouvelles concernant les données synthétiques - qu'il s'agisse des derniers résultats de recherche, des réglementations ou de l'aspect commercial des choses - inscrivez-vous à la newsletter mensuelle Synthetic Data !

Si vous êtes prêt à accélérer l'accès aux données dans votre entreprise ou si vous souhaitez essayer nos fonctionnalités d'augmentation de données à la pointe de la technologie, créez votre compte gratuit pour toujours pour vous familiariser avec la plate-forme de données synthétiques facile à utiliser et sécurisée de MOSTLY AI. Notre équipe est disponible directement depuis l'application pour vous accompagner afin de vous aider à tirer le meilleur parti de la génération de données synthétiques.
 

spot_img

Dernières informations

spot_img