Zephyrnet-logo

Hvordan Reveals Logikkull brukte Amazon Comprehend til å oppdage og redigere PII fra juridiske dokumenter i stor skala | Amazon Web Services

Dato:

I dag, personlig identifiserbar informasjon (PII) er overalt. PII er i e-poster, slakke meldinger, videoer, PDF-er og så videre. Det refererer til data eller informasjon som kan brukes til å identifisere en bestemt person. PII er sensitiv av natur og inkluderer ulike typer personopplysninger, som navn, kontaktinformasjon, identifikasjonsnummer, finansiell informasjon, medisinsk informasjon, biometriske data, fødselsdato og så videre.

Å finne og redigere PII er avgjørende for å ivareta personvernet, sikre datasikkerhet, overholde lover og forskrifter og opprettholde tilliten til kunder og interessenter. Det er en kritisk komponent i moderne dataadministrasjon og cybersikkerhetspraksis. Men å finne PII blant myrdet av elektroniske data kan by på utfordringer for en organisasjon. Disse utfordringene oppstår på grunn av det store volumet og variasjonen av data, datafragmentering, kryptering, datadeling, dynamisk innhold, falske positiver og negativer, kontekstuell forståelse, juridisk kompleksitet, ressursbegrensninger, utviklende data, brukergenerert innhold og adaptive trusler. Men unnlatelse av å oppdage og redigere PII nøyaktig kan føre til alvorlige konsekvenser for organisasjoner. Konsekvensene kan omfatte juridiske straffer, søksmål, omdømmeskade, datainnbruddskostnader, reguleringsundersøkelser, driftsforstyrrelser, erosjon av tillit og sanksjoner.

I rettssystemet er oppdagelse den juridiske prosessen som styrer retten til å innhente og plikten til å produsere ikke-privilegert sak som er relevant for enhver parts krav eller forsvar i rettssaker. Elektronisk oppdagelse også kjent som eDiscovery er det elektroniske aspektet ved å identifisere, samle inn og produsere elektronisk lagret informasjon (ESI) som svar på en forespørsel om produksjon i en rettssak eller etterforskning. I det juridiske domenet er det ofte nødvendig å identifisere, samle inn og produsere ESI under en rettssak eller etterforskning. Hvis organisasjoner har å gjøre med eDiscovery for rettssaker om stevningssvar, er de sannsynligvis bekymret for å dele PII ved et uhell. Mange organisasjoner, inkludert offentlige etater, skoledistrikter og juridiske fagfolk, står overfor utfordringen med å oppdage og redigere PII nøyaktig i stor skala. Spesielt hvis de er en del av en regjeringsgruppe, er redigering av PII gjennom Freedom of Information Act og Digital Services Act avgjørende for å beskytte individets personvern, sikre overholdelse av databeskyttelseslover, forhindre identitetstyveri og opprettholde tillit og åpenhet i myndigheter og digitalt. tjenester. Den skaper en balanse mellom åpenhet og personvern samtidig som den reduserer juridiske og sikkerhetsmessige risikoer.

Organisasjoner kan søke etter PII ved hjelp av metoder som søkeordsøk, mønstermatching, datatapsforebyggende verktøy, maskinlæring (ML), metadataanalyse, dataklassifiseringsprogramvare, optisk tegngjenkjenning (OCR), dokumentfingeravtrykk og kryptering.

Nå en del av Reveals AI-drevne eDiscovery-plattform, Logikkull er en selvbetjeningsløsning som lar jurister behandle, gjennomgå, merke og produsere elektroniske dokumenter som en del av en rettssak eller etterforskning. Dette unike tilbudet hjelper advokater med å finne verdifull informasjon relatert til saken, samtidig som de reduserer kostnader, fremskynder løsningene og reduserer risikoen.

I dette innlegget viser Reveal-eksperter hvordan de brukte Amazon Comprehend i sin dokumentbehandlingspipeline for å oppdage og redigere individuelle deler av PII. Amazon Comprehend er en fullt administrert og kontinuerlig trent NLP-tjeneste (natural language processing) som kan trekke ut innsikt om innholdet i et dokument eller en tekst. Du kan bruke Amazon Comprehend ML-funksjoner til å oppdage og redigere PII i kunde-e-poster, støttebilletter, produktanmeldelser, sosiale medier og mer.

Oversikt over løsning

Det overordnede målet for ingeniørteamet er å oppdage og redigere PII fra millioner av juridiske dokumenter for sine kunder. Ved å bruke Reveals Logikkull-løsning implementerte ingeniørteamet to prosesser, nemlig første pass PII-deteksjon og andre pass PII-deteksjon og redaksjon. Denne to-pass løsningen ble gjort mulig ved å bruke InneholderPiiEntities og DetectPiiEntities APIer.

Første pass PII-deteksjon

Målet med første pass PII-deteksjon er å finne dokumentene som kan inneholde PII.

  1. Brukere laster opp filene de ønsker å utføre PII-deteksjon og redaksjon på via Logikculls offentlige nettsted til en prosjektmappe. Disse filene kan være i form av kontordokumenter, .pdf-filer, e-poster eller en .zip-fil som inneholder alle de støttede filtypene.
  2. Logikkull lagrer disse prosjektmappene trygt inne i en Amazon Simple Storage Service (Amazon S3) bøtte. Filene går deretter gjennom Logikkulls massivt parallelle prosesseringsrørledning som er vert på Amazon Elastic Compute Cloud (Amazon EC2), som behandler filene, trekker ut metadataene og genererer artefakter i tekstformat for datagjennomgang. Logikkulls prosesseringspipeline støtter tekstutvinning for et bredt utvalg av skjemaer og filer, inkludert lyd- og videofiler.
  3. Etter at filene er tilgjengelige i tekstformat, sender Logikkull inndatateksten sammen med språkmodellen, som er engelsk, gjennom Amazon Comprehend ved å gjøre InneholderPiiEntities API-kall. Behandlingsrørledningsserverne som er vert på Amazon EC2 gjør Amazon Comprehend ContainsPiiEntities API-kall ved å sende forespørselsparametrene som tekst og språkkode. De ContainsPiiEntities API-anrop analyserer inndatatekst for tilstedeværelsen av PII og returnerer etikettene til identifiserte PII-enhetstyper, for eksempel navn, adresse, bankkontonummer eller telefonnummer. API-svaret inkluderer også en konfidenspoengsum som indikerer nivået av tillit som Amazon Comprehend har tildelt deteksjonsnøyaktigheten. Konfidenspoengsummen har en verdi mellom 0 og 1, hvor 1 betyr 100 prosent konfidens. Logikkull bruker denne konfidenspoengsummen til å tilordne koden PII Detected til dokumentene. Logikkull tildeler denne taggen kun til dokumenter som har en konfidensscore på over 0.75.
  4. PII-oppdagede taggede dokumenter mates inn i Logikculls søkeindeksklynge slik at brukerne raskt kan identifisere dokumenter som inneholder PII-enheter.

Andre pass PII-deteksjon og redaksjon

Den første gjennomgangen PII-deteksjonsprosessen begrenser omfanget av datasettet ved å identifisere hvilke dokumenter som inneholder PII-informasjon. Dette øker hastigheten på PII-deteksjonsprosessen og reduserer også de totale kostnadene. Målet med andre pass PII-deteksjon er å identifisere de individuelle forekomstene av PII og fjerne dem fra de taggede dokumentene i den første passasjen.

  1. Brukere søker etter dokumenter gjennom Logikculls nettsted som inneholder PII ved å bruke Logikculls avanserte søkefilterfunksjon.
  2. Forespørselen håndteres av Logikculls applikasjonsservere som er vert på Amazon EC2 og serverne kommuniserer med søkeindeksklyngen for å finne dokumentene.
  3. Logikkull-applikasjonsserverne er i stand til å identifisere de individuelle forekomstene av PII ved å lage DetectPiiEntities API-kall. Serverne foretar API-kallet ved å sende teksten og språket til inndatadokumenter. De DetectPiiEntities API-handling inspiserer inndatateksten for enheter som inneholder PII. For hver enhet gir svaret enhetstypen, hvor enhetsteksten begynner og slutter, og nivået av tillit Amazon Comprehend har i dets deteksjon.
  4. Brukerne velger deretter de spesifikke enhetene de vil redigere ved hjelp av Logikculls nettgrensesnitt. Applikasjonsserveren sender disse forespørslene til Logikkulls behandlingspipeline. Følgende er et skjermbilde av en PDF som ble lastet opp til Logikculls applikasjon. Fra skjermbildet nedenfor kan du se at forskjellige PII-enheter som navn, adresse, telefonnummer, e-postadresse og så videre er uthevet.

  1. PII-redaksjonen brukes trygt inne i Logikculls behandlingspipeline ved hjelp av tilpasset forretningslogikk. Fra skjermbildet som følger, kan du se at brukere kan velge enten spesifikke PII-enhetstyper eller alle PII-enhetstyper som de vil redigere og deretter, med et klikk på en enkelt knapp, redigere all PII-informasjonen.

Resultater

Logikkull, en Reveal-teknologi, behandler for tiden over 20 millioner dokumenter hver uke og var i stand til å begrense omfanget av deteksjon ved hjelp av ContainsPiiEntities API og vise individuelle forekomster av PII-enheter til sine kunder ved å bruke DetectPiiEntities API.

"Med Amazon Comprehend har Logikkull vært i stand til raskt å distribuere kraftige NLP-funksjoner på en brøkdel av tiden en spesialbygd løsning ville ha krevet."

– Steve Newhouse, VP of Product for Logikkull.

konklusjonen

Amazon Comprehend lar Reveals Logikkull-teknologi kjøre PII-deteksjon i stor skala til relativt lave kostnader ved å bruke Amazon Comprehend. De ContainsPiiEntities API brukes til å gjøre en innledende skanning av millioner av dokumenter. De DetectPiiEntities API brukes til å kjøre en detaljert analyse av tusenvis av dokumenter og identifisere individuelle deler av PII i dokumentene deres.

Ta en titt på alle Amazon Comprehend-funksjoner. Prøv funksjonene og send oss ​​tilbakemelding enten via AWS forum  for Amazon Comprehend eller gjennom dine vanlige AWS-støttekontakter.


Om forfatterne

Aman Tiwari er en General Solutions Architect som jobber med Worldwide Commercial Sales hos AWS. Han jobber med kunder i Digital Native Business-segmentet og hjelper dem med å designe innovative, spenstige og kostnadseffektive løsninger ved å bruke AWS-tjenester. Han har en mastergrad i telekommunikasjonsnettverk fra Northeastern University. Utenom jobben liker han å spille tennis og lese bøker.

Jeff Newburn er en Senior Software Engineering Manager som leder Data Engineering-teamet hos Logikkull – A Reveal Technology. Han fører tilsyn med selskapets datainitiativer, inkludert datavarehus, visualiseringer, analyser og maskinlæring. Med erfaring som spenner over utvikling og ledelse innen områder fra kjøredeling til datasystemer, liker han å lede team av strålende ingeniører til spennende produkter.

Søren Blond Daugaard er en stabsingeniør i Data Engineering-teamet hos Logikkull – A Reveal Technology. Han implementerer svært skalerbare AI- og ML-løsninger i Logikcull-produktet, slik at kundene våre kan utføre arbeidet mer effektivt og med høyere presisjon. Hans ekspertise spenner over datapipelines, nettbaserte systemer og maskinlæringssystemer.

Kevin Lufkin er en senior programvareingeniør i søketeknikkteamet hos Logikcull – A Reveal Technology, hvor han fokuserer på å utvikle kundevendte og søkerelaterte funksjoner. Hans omfattende ekspertise innen UI/UX kompletteres av en bakgrunn innen full-stack webutvikling, med et sterkt fokus på å bringe produktvisjoner til live.

spot_img

Siste etterretning

spot_img