Zephyrnet-logo

Fujitsu lanserer nye teknologier for å beskytte konversasjons-AI mot hallusinasjoner og motstandsangrep

Dato:

TOKYO, 26. september 2023 – (JCN Newswire) – Fujitsu kunngjorde i dag lanseringen av to nye AI-tillitsteknologier for å forbedre påliteligheten til svarene fra konversasjons-AI-modeller. De nyutviklede teknologiene inkluderer en teknikk for å oppdage hallusinasjoner i konversasjons-AI-modeller – et fenomen der generativ AI skaper feil eller ikke-relatert utdata – og en teknikk utviklet i fellesskap ved det lille forskningslaboratoriet (1) ved Ben Gurion University for å oppdage phishing-nettadresser implantert i svarene til AI gjennom forgiftningsangrep som injiserer falsk informasjon.

Med de nye teknologiene har Fujitsu som mål å gi bedrifts- og individuelle brukere et verktøy for å evaluere påliteligheten til svar fra konversasjons-AI, og til slutt bidra til en sikrere bruk av AI på tvers av en rekke brukstilfeller, inkludert for virksomheter som tar sikte på å implementere teknologien i faktiske operasjoner.

Professor Yuval Elovici, Ben Gurion University, kommenterer: "Generativ AI står som et kritisk domene, og innenfor det fremstår hallusinasjonsdeteksjonsteknologien Fujitsu har utviklet som sentral for å etablere pålitelige samtale-AI-systemer. Forskere fra Ben-Gurion University (BGU) og Fujitsu har vært banebrytende med en innovativ teknikk for å forbedre sikkerheten til AI-basert URL-filtrering mot adversarielle trusler. Vårt gjennombrudd fokuserer på tabelldata, noe som resulterer i en mer motstandsdyktig forsvarsmekanisme mot motstandsdyktige angrep innen AI-drevet URL-filtrering. Fujitsu og Ben-Gurion University er satt til å samarbeide om å skape nye sikkerhetssentrerte fremskritt innen generativ AI.»

Fujitsu vil inkludere disse nye teknologiene i sin samtale-AI-kjernemotor levert gjennom "Fujitsu Kozuchi (kodenavn) - Fujitsu AI Platform", som gir brukere tilgang til et bredt spekter av kraftige AI- og ML-teknologier. Teknologien for å oppdage hallusinasjoner i konversasjons-AI vil være tilgjengelig for brukere i Japan fra og med 28. september 2023, og teknologien for å oppdage nettadresser for nettfisking-nettsteder som svar fra konversasjons-AI fra og med oktober 2023. De nye teknologiene vil være tilgjengelige både for bedriftsbrukere som en demomiljø via Kozuchi og til individuelle brukere via en dedikert portalside (2). Fujitsu planlegger en utrulling av begge teknologiene til det globale markedet i fremtiden.

Figur 1. Oversikt over pålitelige samtale AINyutviklede teknologier1. Teknologi for svært nøyaktig deteksjon av hallusinasjoner i svar på samtale-AI

Når de bruker samtale-AI i forretningsdrift, bruker bedrifter ofte teknologien til å trekke ut informasjon relatert til spørsmål fra forhåndsregistrerte forretningsdata og legge til dataene som referanseinformasjon når de stiller spørsmål til en ekstern samtale-AI. Selv om denne metoden gir nøyaktige svar og reduserer hallusinasjoner, representerer fullstendig forebygging av hallusinasjoner et pågående problem ettersom samtale-AI i noen tilfeller ikke er i stand til å trekke ut informasjon relatert til spørsmål på riktig måte, og følgelig skaper urelaterte, ukorrekte svar. Selv om metoder for å estimere i hvilken grad svaret til en AI kan være en hallusinasjon (hallusinasjonsscore), er nøyaktig estimering av denne poengsummen fortsatt en vanskelig oppgave ettersom samtale-AI bruker forskjellige uttrykk for å uttrykke det samme faktum.

Basert på observasjonen at konversasjons-AI ofte genererer feil informasjon for egennavn og tall, og innholdet i svar har en tendens til å variere med gjentatte spørsmål, har Fujitsu utviklet en teknologi for å identifisere og fokusere på deler av setninger der hallusinasjoner sannsynligvis vil forekomme.

For å beregne en svært nøyaktig hallusinasjonsscore, deler den nye teknologien først ned AI-svaret i tre deler (emne, predikat, objekt, etc.) og identifiserer deretter automatisk navngitte enheter i svaret. Som et neste trinn lar teknologien disse navngitte enhetene stå tomme og ber gjentatte ganger den eksterne AI om å definere disse spesifikke uttrykkene mer nøyaktig. (Figur 2)

Fujitsu benchmerket denne teknologien ved å bruke åpne data, inkludert WikiBio GPT-3 Hallusinasjonsdatasettet (3) og fant ut at det kunne forbedre deteksjonsnøyaktigheten (AUC-ROC) (4) med omtrent 22 % sammenlignet med andre toppmoderne metoder for å oppdage AI-hallusinasjoner, som SelfCheckGPT (5).

Figur 2. Oversikt over teknologi for å oppdage hallusinasjoner i samtale-AI2. Teknologi for gjenkjenning av nettfisking-URLer i svar fra konversasjons-AI

Ettersom samtale-AI lager svar basert på treningsdataene sine, kan fiendtlige enheter lure AI-en til å lage svar som inkluderer manipulert informasjon som phishing-URLer som fører til falske nettsteder ved å implantere skadelig informasjon i AI-treningsdataene.

For å løse dette problemet har Fujitsu utviklet en teknologi for å oppdage manipulerte URL-er i svarene til konversasjons-AI. Når teknologien identifiserer en nettfisking-URL, sender den en advarsel til brukerne.

Fujitsus nye teknologi oppdager ikke bare phishing-URLer, men øker også AIs motstand mot eksisterende angrep og lurer AI-modeller til å gjøre en bevisst feilvurdering for å sikre svært pålitelige svar fra AI. Den nyutviklede teknologien utnytter en teknikk utviklet i fellesskap av Fujitsu og Ben-Gurion University of the Negev ved Fujitsu Small Research Lab etablert ved Ben-Gurion University. Teknologien utnytter tendensen til at fiendtlige enheter ofte angriper en enkelt type AI-modell, og oppdager ondsinnet data ved å behandle informasjon med forskjellige forskjellige AI-modeller og evaluere forskjellen i begrunnelsen for vurderingsresultatet.

Teknologien kan ikke bare brukes til å oppdage phishing-URLer, men også for å hindre generelle angrep for å lure AI-modeller som bruker tabelldata, og kan dermed også brukes til å unngå angrep på andre tjenester.

Figur 3. Oversikt over teknologi for å oppdage phishing-URLer

[1] Fujitsu Small Research Lab:Initiativ der Fujitsu-forskere er innebygd i teknologiinkubatorer ved universiteter i Japan og internasjonalt for å drive felles forskning med noen av de ledende hjernene på sine felt, inkludert professorer så vel som neste generasjon forskere.
[2] Individuelle brukere kan også prøve ut Fujitsus avanserte APIer og webapplikasjoner ved å opprette en konto på Fujitsu Research Portal. (Fujitsu Research Portal: portalside som har vært åpen for publikum siden juni 2023 for å gi registrerte brukere tilgang til prøveversjoner av Fujitsus avanserte teknologier. Fujitsu tilbyr avanserte teknologier til bedriftsbrukere via "Fujitsu Kozuchi (kodenavn) – Fujitsu AI Platform" og til individuelle brukere gjennom denne portalsiden.)
[3] WikiBio GPT-3 Hallusinasjonsdatasett:Referansedata basert på Wikipedia for hallusinasjonsdeteksjon
[4] AUC-ROC (Area Under the Curve of the Receiver Operating Characteristic Curve) :Arealet under kurven til kurven oppnådd når terskelverdien til dommen endres i forhold til abnormitetsskåren ved å plassere den sanne positive raten på den vertikale aksen og den falske positive raten på den horisontale aksen. En tilfeldig anomali-score er 0.5, og et perfekt svar er 1.0. Det anses generelt at et visst ytelsesnivå kan oppnås når det er høyere enn 0.7.
[5] SelfCheckGPT:En hallusinasjonsdeteksjonsteknologi utviklet ved University of Cambridge, Storbritannia

Fujitsus forpliktelse til målene for bærekraftig utvikling (SDG)

Sustainable Development Goals (SDGs) vedtatt av FN i 2015 representerer et sett med felles mål som skal nås over hele verden innen 2030. Fujitsus formål - "å gjøre verden mer bærekraftig ved å bygge tillit i samfunnet gjennom innovasjon" - er et løfte om bidra til visjonen om en bedre fremtid som er styrket av SDG.

Om Fujitsu

Fujitsus formål er å gjøre verden mer bærekraftig ved å bygge tillit i samfunnet gjennom innovasjon. Som den foretrukne digitale transformasjonspartneren for kunder i over 100 land, jobber våre 124,000 6702 ansatte for å løse noen av de største utfordringene menneskeheten står overfor. Vårt utvalg av tjenester og løsninger bygger på fem nøkkelteknologier: databehandling, nettverk, kunstig intelligens, data og sikkerhet og konvergerende teknologier, som vi samler for å levere bærekraftstransformasjon. Fujitsu Limited (TSE:3.7) rapporterte konsoliderte inntekter på 28 billioner yen (31 milliarder USD) for regnskapsåret som ble avsluttet 2023. mars XNUMX og er fortsatt det beste digitale tjenesteselskapet i Japan etter markedsandel. Finne ut mer: www.fujitsu.com.

Trykk på Kontakter:
Fujitsu Limited 
Public and Investor Relations Divisjon
Forespørsler (https://bit.ly/3rrQ4mB)

spot_img

Siste etterretning

spot_img