Logo Zéphyrnet

Compromis IA : Équilibrer les modèles puissants et les biais potentiels

Date :

À mesure que les développeurs déverrouillent de nouveaux outils d'IA, le risque de perpétuer des biais nuisibles devient de plus en plus élevé, en particulier dans la foulée d'un année comme 2020, qui a réinventé bon nombre de nos normes sociales et culturelles sur lesquelles les algorithmes d'IA ont longtemps été formés.

Une poignée de modèles fondamentaux émergent qui reposent sur une ampleur de données d'entraînement qui les rend intrinsèquement puissants, mais ce n'est pas sans risque de biais préjudiciables - et nous devons collectivement reconnaître ce fait.

La reconnaissance en elle-même est facile. La compréhension est beaucoup plus difficile, tout comme l'atténuation des risques futurs. C'est-à-dire que nous devons d'abord prendre des mesures pour nous assurer que nous comprenons les racines de ces biais afin de mieux comprendre les risques liés au développement de modèles d'IA.

Les origines sournoises du biais

Les modèles d'IA d'aujourd'hui sont souvent pré-entraînés et open source, ce qui permet aux chercheurs et aux entreprises de mettre en œuvre rapidement l'IA et de l'adapter à leurs besoins spécifiques.

Bien que cette approche rende l'IA plus disponible dans le commerce, il y a un réel inconvénient, à savoir qu'une poignée de modèles sous-tendent désormais la majorité des applications d'IA à travers les industries et les continents. Ces systèmes sont encombrés de biais non détectés ou inconnus, ce qui signifie que les développeurs qui les adaptent à leurs applications travaillent à partir d'une base fragile.

Selon un récent étude par le Center for Research on Foundation Models de Stanford, tous les biais au sein de ces modèles fondamentaux ou des données sur lesquelles ils sont construits sont hérités par ceux qui les utilisent, créant un potentiel d'amplification.

Par exemple, YFCC100M est un ensemble de données accessible au public de Flickr qui est couramment utilisé pour entraîner des modèles. Lorsque vous examinez les images des personnes dans cet ensemble de données, vous verrez que la distribution des images dans le monde est fortement biaisé vers les États-Unis, ce qui signifie qu'il y a un manque de représentation des personnes d'autres régions et cultures.

Ces types d'asymétries dans les données d'apprentissage se traduisent par des modèles d'IA qui ont des biais de sous-représentation ou de surreprésentation dans leur sortie, c'est-à-dire une sortie qui est plus dominante pour les cultures blanches ou occidentales. Lorsque plusieurs ensembles de données sont combinés pour créer de grands ensembles de données de formation, il y a un manque de transparence et il peut devenir de plus en plus difficile de savoir si vous avez un mélange équilibré de personnes, de régions et de cultures. Il n'est pas surprenant que les modèles d'IA résultants soient publiés avec des biais flagrants qu'ils contiennent.

De plus, lorsque des modèles d'IA fondamentaux sont publiés, il y a généralement peu ou pas d'informations fournies sur leurs limites. La découverte des problèmes potentiels est laissée à l'utilisateur final pour tester - une étape qui est souvent négligée. Sans transparence et sans une compréhension complète d'un ensemble de données particulier, il est difficile de détecter les limites d'un modèle d'IA, telles que des performances inférieures pour les femmes, les enfants ou les pays en développement.

Chez Getty Images, nous évaluons si des biais sont présents dans nos modèles de vision par ordinateur avec une série de tests qui incluent des images d'expériences réelles et vécues, y compris des personnes ayant différents niveaux de capacités, de fluidité de genre et de problèmes de santé. Bien que nous ne puissions pas saisir tous les préjugés, nous reconnaissons l'importance de visualiser un monde inclusif et pensons qu'il est important de comprendre ceux qui peuvent exister et de les affronter quand nous le pouvons.

Exploiter les métadonnées pour atténuer les biais

Alors, comment fait-on ? Lorsque nous travaillons avec l'IA chez Getty Images, nous commençons par examiner la répartition des personnes dans un ensemble de données de formation, y compris l'âge, le sexe et l'origine ethnique.

Heureusement, nous sommes en mesure de le faire, car nous avons besoin d'une autorisation de modèle pour le contenu créatif que nous concédons sous licence. Cela nous permet d'inclure des informations auto-identifiées dans nos métadonnées (c'est-à-dire un ensemble de données décrivant d'autres données), ce qui permet à notre équipe d'IA de rechercher automatiquement dans des millions d'images et d'identifier rapidement les biais dans les données. Les ensembles de données open source sont souvent limités par un manque de métadonnées, un problème qui est exacerbé lors de la combinaison d'ensembles de données provenant de plusieurs sources pour créer un plus grand pool.

Mais soyons réalistes : toutes les équipes d'IA n'ont pas accès à des métadonnées étendues, et la nôtre n'est pas parfaite non plus. Il existe un compromis inhérent : des données de formation plus volumineuses qui conduisent à des modèles plus puissants au détriment de la compréhension des biais et des biais dans ces données.

En tant qu'industrie de l'IA, il est crucial que nous trouvions un moyen de surmonter ce compromis étant donné que les industries et les personnes du monde entier en dépendent. La clé est de nous concentrer davantage sur les modèles d'IA centrés sur les données, un mouvement qui commence à se renforcer.

Où allons-nous partir d'ici?

Affronter les préjugés dans l'IA n'est pas une mince affaire et nécessitera une collaboration dans l'ensemble de l'industrie technologique dans les années à venir. Cependant, il existe des mesures de précaution que les praticiens peuvent prendre dès maintenant pour apporter des changements mineurs mais notables.

Par exemple, lorsque des modèles fondamentaux sont publiés, nous pourrions publier les fiche de données décrivant les données d'entraînement sous-jacentes, fournissant des statistiques descriptives de ce qui se trouve dans l'ensemble de données. Cela donnerait aux utilisateurs ultérieurs une idée des forces et des limites d'un modèle, leur permettant de prendre des décisions éclairées. L'impact pourrait être énorme.

Le susmentionné étude sur les modèles fondamentaux pose la question : « Quel est le bon ensemble de statistiques sur les données pour fournir une documentation adéquate, sans être trop coûteux ou difficile à obtenir ? » Pour les données visuelles en particulier, les chercheurs fourniraient idéalement les distributions d'âge, de sexe, de race, de religion, de région, de capacités, d'orientation sexuelle, d'état de santé, etc. Mais, ces métadonnées sont coûteuses et difficiles à obtenir sur de grands ensembles de données provenant de sources multiples.

Une approche complémentaire serait que les développeurs d'IA aient accès à une liste courante de biais connus et de limitations communes pour les modèles fondamentaux. Cela pourrait inclure le développement d'une base de données de tests facilement accessibles pour les biais auxquels les chercheurs en IA pourraient régulièrement contribuer, en particulier compte tenu de la façon dont les gens utilisent ces modèles.

Par exemple, Twitter a récemment facilité une concurrence qui a mis les experts de l'IA au défi d'exposer les biais dans leurs algorithmes (vous vous souvenez quand j'ai dit que la reconnaissance et la sensibilisation sont la clé de l'atténuation ?). Nous en avons besoin de plus, partout. La pratique régulière du crowdsourcing comme celle-ci pourrait aider à réduire le fardeau des praticiens individuels.

Nous n'avons pas encore toutes les réponses, mais en tant qu'industrie, nous devons examiner attentivement les données que nous utilisons comme solution à des modèles plus puissants. Cela a un coût - amplification des préjugés - et nous devons accepter le rôle que nous jouons dans la solution. Nous devons chercher des moyens de mieux comprendre les données d'entraînement que nous utilisons, en particulier lorsque les systèmes d'IA sont utilisés pour représenter ou interagir avec de vraies personnes.

Ce changement de mentalité aidera les entreprises de tous types et de toutes tailles à repérer rapidement les biais et à les contrer au stade du développement, en atténuant les biais.

PlatonAi. Web3 réinventé. L'intelligence des données amplifiée.
Cliquez ici pour y accéder.

Source : https://techcrunch.com/2021/09/24/ai-tradeoffs-balancing-powerful-models-and-potential-biases/

spot_img

Dernières informations

spot_img