Logo Zéphyrnet

Fujitsu lance de nouvelles technologies pour protéger l'IA conversationnelle des hallucinations et des attaques contradictoires

Date :

TOKYO, 26 septembre 2023 – (JCN Newswire) – Fujitsu a annoncé aujourd'hui le lancement de deux nouvelles technologies de confiance en matière d'IA pour améliorer la fiabilité des réponses des modèles d'IA conversationnelle. Les technologies nouvellement développées comprennent une technique pour détecter les hallucinations dans les modèles d’IA conversationnelle – un phénomène dans lequel l’IA générative crée des résultats incorrects ou sans rapport – et une technique développée conjointement dans son petit laboratoire de recherche (1) à l'Université Ben Gourion pour détecter les URL de sites de phishing implantés dans les réponses de l'IA via des attaques d'empoisonnement injectant de fausses informations.

Avec ces nouvelles technologies, Fujitsu vise à fournir aux utilisateurs professionnels et individuels un outil permettant d'évaluer la fiabilité des réponses de l'IA conversationnelle, contribuant ainsi à une utilisation plus sécurisée de l'IA dans une gamme de cas d'utilisation, y compris pour les entreprises souhaitant mettre en œuvre la technologie dans opérations réelles.

Le professeur Yuval Elovici, de l’Université Ben Gurion, commente : « L’IA générative constitue un domaine critique, et dans ce domaine, la technologie de détection des hallucinations développée par Fujitsu apparaît comme essentielle pour établir des systèmes d’IA conversationnelle fiables. Des chercheurs de l'Université Ben Gourion (BGU) et de Fujitsu ont mis au point une technique innovante pour améliorer la sécurité du filtrage d'URL basé sur l'IA contre les menaces adverses. Notre avancée se concentre sur les données tabulaires, ce qui se traduit par un mécanisme de défense plus résilient contre les attaques adverses dans le domaine du filtrage d'URL piloté par l'IA. À l’avenir, Fujitsu et l’Université Ben Gourion devraient collaborer pour forger de nouvelles avancées centrées sur la sécurité dans le domaine de l’IA générative.

Fujitsu inclura ces nouvelles technologies dans son moteur principal d'IA conversationnelle fourni via la « Fujitsu Kozuchi (nom de code) – Fujitsu AI Platform », qui offre aux utilisateurs l'accès à un large éventail de technologies puissantes d'IA et de ML. La technologie permettant de détecter les hallucinations dans l'IA conversationnelle sera disponible pour les utilisateurs au Japon à partir du 28 septembre 2023, et la technologie permettant de détecter les URL de sites de phishing dans les réponses de l'IA conversationnelle à partir d'octobre 2023. Les nouvelles technologies seront à la fois disponibles pour les utilisateurs en entreprise en tant que environnement de démonstration via Kozuchi et aux utilisateurs individuels via un site portail dédié (2). Fujitsu prévoit de déployer à l'avenir ces deux technologies sur le marché mondial.

Figure 1. Présentation de l'IA conversationnelle fiableTechnologies nouvellement développées1. Technologie pour une détection très précise des hallucinations dans les réponses de l'IA conversationnelle

Lorsqu'elles appliquent l'IA conversationnelle dans leurs opérations commerciales, les entreprises utilisent souvent la technologie pour extraire des informations liées aux questions à partir de données commerciales préenregistrées et ajouter les données comme informations de référence lorsqu'elles posent des questions à une IA conversationnelle externe. Bien que cette méthode fournisse des réponses précises et réduise les hallucinations, la prévention complète des hallucinations représente un problème permanent, car dans certains cas, l'IA conversationnelle est incapable d'extraire correctement les informations liées aux questions et crée par conséquent des réponses incorrectes et sans rapport. Bien qu’il existe des méthodes permettant d’estimer dans quelle mesure la réponse d’une IA pourrait être une hallucination (score d’hallucination), l’estimation précise de ce score reste une tâche difficile car l’IA conversationnelle utilise différentes expressions pour exprimer le même fait.

Partant du constat que l'IA conversationnelle génère fréquemment des informations incorrectes pour les noms propres et les nombres, et que le contenu des réponses a tendance à différer selon les questions répétées, Fujitsu a développé une technologie permettant d'identifier et de se concentrer sur les parties de phrases où des hallucinations sont susceptibles de se produire.

Pour calculer un score d'hallucination très précis, la nouvelle technologie décompose d'abord la réponse de l'IA en trois parties (sujet, prédicat, objet, etc.), puis identifie automatiquement les entités nommées dans la réponse. Dans l’étape suivante, la technologie laisse ces entités nommées vides et demande à plusieurs reprises à l’IA externe de définir plus précisément ces expressions spécifiques. (Figure 2)

Fujitsu a comparé cette technologie à l'aide de données ouvertes, notamment l'ensemble de données WikiBio GPT-3 Hallucination (3) et a constaté que cela pourrait améliorer la précision de la détection (AUC-ROC) (4) d'environ 22 % par rapport à d'autres méthodes de pointe pour détecter les hallucinations de l'IA, telles que SelfCheckGPT (5).

Figure 2. Aperçu de la technologie permettant de détecter les hallucinations dans l'IA conversationnelle2. Technologie de détection des URL de phishing dans les réponses de l'IA conversationnelle

Alors que l’IA conversationnelle crée des réponses basées sur ses données de formation, des entités hostiles peuvent tromper l’IA en lui faisant créer des réponses incluant des informations manipulées telles que des URL de phishing menant à de faux sites Web en implantant des informations malveillantes dans les données de formation de l’IA.

Pour résoudre ce problème, Fujitsu a développé une technologie permettant de détecter les URL manipulées dans les réponses de l'IA conversationnelle. Une fois que la technologie identifie une URL de phishing, elle envoie un message d'avertissement aux utilisateurs.

La nouvelle technologie de Fujitsu détecte non seulement les URL de phishing, mais augmente également la résistance de l'IA aux attaques existantes qui incitent les modèles d'IA à commettre une erreur de jugement délibérée afin de garantir des réponses hautement fiables de l'IA. La technologie nouvellement développée exploite une technique développée conjointement par Fujitsu et l'Université Ben Gourion du Néguev au sein du petit laboratoire de recherche Fujitsu établi à l'Université Ben Gourion. La technologie exploite la tendance selon laquelle les entités hostiles attaquent souvent un seul type de modèle d'IA et détecte les données malveillantes en traitant les informations avec différents modèles d'IA et en évaluant la différence de justification du résultat du jugement.

La technologie peut non seulement être utilisée pour détecter les URL de phishing, mais aussi pour empêcher les attaques générales visant à tromper les modèles d'IA qui utilisent des données tabulaires, et peut donc également être utilisée pour éviter les attaques contre d'autres services.

Figure 3. Présentation de la technologie permettant de détecter les URL de phishing

Petit laboratoire de recherche Fujitsu :Initiative où les chercheurs de Fujitsu sont intégrés dans des incubateurs technologiques d'universités au Japon et à l'étranger pour mener des recherches conjointes avec certains des plus grands esprits dans leurs domaines, y compris des professeurs ainsi que la prochaine génération de chercheurs.
Les utilisateurs individuels peuvent également essayer les API et applications Web avancées de Fujitsu en créant un compte sur le portail de recherche Fujitsu. (Fujitsu Research Portal : site portail ouvert au public depuis juin 2023 pour permettre aux utilisateurs enregistrés d'accéder aux versions d'essai des technologies avancées de Fujitsu. Fujitsu propose des technologies avancées aux utilisateurs professionnels via « Fujitsu Kozuchi (nom de code) – Fujitsu AI Platform » et aux utilisateurs individuels via ce site portail.)
Ensemble de données sur les hallucinations WikiBio GPT-3 :Données de référence basées sur Wikipédia pour la détection des hallucinations
AUC-ROC (Aire sous la courbe de la courbe caractéristique de fonctionnement du récepteur) :L'aire sous la courbe de la courbe obtenue lorsque la valeur seuil du jugement est modifiée par rapport au score d'anomalie en plaçant le taux de vrais positifs sur l'axe vertical et le taux de faux positifs sur l'axe horizontal. Un score d’anomalie aléatoire est de 0.5 et une réponse parfaite est de 1.0. On considère généralement qu’un certain niveau de performance peut être atteint lorsqu’il est supérieur à 0.7.
SelfCheckGPT :Une technologie de détection des hallucinations développée à l’Université de Cambridge, Royaume-Uni

L'engagement de Fujitsu envers les objectifs de développement durable (ODD)

Les objectifs de développement durable (ODD) adoptés par les Nations Unies en 2015 représentent un ensemble d'objectifs communs à atteindre dans le monde entier d'ici 2030. L'objectif de Fujitsu - « rendre le monde plus durable en renforçant la confiance dans la société grâce à l'innovation » - est une promesse de contribuer à la vision d'un avenir meilleur grâce aux ODD.

À propos de Fujitsu

L'objectif de Fujitsu est de rendre le monde plus durable en renforçant la confiance dans la société grâce à l'innovation. En tant que partenaire de choix de la transformation numérique pour les clients dans plus de 100 pays, nos 124,000 6702 employés travaillent à résoudre certains des plus grands défis auxquels l'humanité est confrontée. Notre gamme de services et de solutions s'appuie sur cinq technologies clés : l'informatique, les réseaux, l'intelligence artificielle, les données et la sécurité et les technologies convergentes, que nous rassemblons pour apporter une transformation durable. Fujitsu Limited (TSE : 3.7) a enregistré un chiffre d'affaires consolidé de 28 31 milliards de yens (2023 milliards de dollars) pour l'exercice clos le XNUMX mars XNUMX et reste la première société de services numériques au Japon en termes de part de marché. En savoir plus: www.fujitsu.com.

Contacts presse:
Fujitsu Limited 
Division des relations publiques et investisseurs
Renseignements (https://bit.ly/3rrQ4mB)

spot_img

Dernières informations

spot_img