Zephyrnet-logo

Beste fremgangsmåter for å bygge sikre applikasjoner med Amazon Transcribe | Amazon Web Services

Dato:

Amazon Transcribe er en AWS-tjeneste som lar kunder konvertere tale til tekst i enten batch- eller streamingmodus. Den bruker maskinlæringsdrevet automatisk talegjenkjenning (ASR), automatisk språkidentifikasjon og etterbehandlingsteknologier. Amazon Transcribe kan brukes til transkripsjon av kundeservicesamtaler, flerpartskonferansesamtaler og talepostmeldinger, samt undertekstgenerering for innspilte og direktesendte videoer, for bare å nevne noen få eksempler. I dette blogginnlegget lærer du hvordan du kan drive applikasjonene dine med Amazon Transcribe-funksjoner på en måte som oppfyller sikkerhetskravene dine.

Noen kunder gir Amazon Transcribe data som er konfidensielle og proprietære for deres virksomhet. I andre tilfeller kan lydinnhold behandlet av Amazon Transcribe inneholde sensitive data som må beskyttes for å overholde lokale lover og forskrifter. Eksempler på slik informasjon er personlig identifiserbar informasjon (PII), personlig helseinformasjon (PHI) og data om betalingskortindustrien (PCI). I de følgende delene av bloggen dekker vi ulike mekanismer Amazon Transcribe har for å beskytte kundedata både under transport og hvile. Vi deler følgende syv beste fremgangsmåter for sikkerhet for å bygge applikasjoner med Amazon Transcribe som oppfyller sikkerhets- og samsvarskravene dine:

  1. Bruk databeskyttelse med Amazon Transcribe
  2. Kommuniser over en privat nettverksbane
  3. Rediger sensitive data om nødvendig
  4. Bruk IAM-roller for applikasjoner og AWS-tjenester som krever Amazon Transcribe-tilgang
  5. Bruk tag-basert tilgangskontroll
  6. Bruk AWS-overvåkingsverktøy
  7. Aktiver AWS Config

Følgende beste fremgangsmåter er generelle retningslinjer og representerer ikke en komplett sikkerhetsløsning. Fordi disse beste fremgangsmåtene kanskje ikke er passende eller tilstrekkelige for miljøet ditt, bør du bruke dem som nyttige hensyn i stedet for resepter.

Beste praksis 1 – Bruk databeskyttelse med Amazon Transcribe

Amazon Transcribe er i samsvar med AWS delt ansvarsmodell, som skiller AWS-ansvar for sikkerhet i skyen fra kundeansvar for sikkerhet i skyen.

AWS er ​​ansvarlig for å beskytte den globale infrastrukturen som kjører hele AWS Cloud. Som kunde er du ansvarlig for å opprettholde kontroll over innholdet ditt som er vert på denne infrastrukturen. Dette innholdet inkluderer sikkerhetskonfigurasjonen og administrasjonsoppgavene for AWS-tjenestene du bruker. For mer informasjon om personvern, se Vanlige spørsmål om personvern.

Beskyttelse av data under transport

Datakryptering brukes for å sikre at datakommunikasjonen mellom applikasjonen din og Amazon Transcribe forblir konfidensiell. Bruken av sterke kryptografiske algoritmer beskytter data mens de overføres.

Amazon Transcribe kan operere i en av de to modusene:

  • Streaming av transkripsjoner tillate transkripsjon av mediastrøm i sanntid
  • Batch-transkripsjonsjobber tillate transkripsjon av lydfiler ved å bruke asynkrone jobber.

I streaming-transkripsjonsmodus åpner klientapplikasjoner en toveis streamingforbindelse over HTTP/2 eller WebSockets. En applikasjon sender en lydstrøm til Amazon Transcribe, og tjenesten svarer med en tekststrøm i sanntid. Både HTTP/2- og WebSockets-streamingforbindelser etableres over Transport Layer Security (TLS), som er en allment akseptert kryptografisk protokoll. TLS gir autentisering og kryptering av data under overføring ved hjelp av AWS-sertifikater. Vi anbefaler å bruke TLS 1.2 eller nyere.

I batch-transkripsjonsmodus må en lydfil først legges i en Amazon Simple Storage Service (Amazon S3) bøtte. Deretter opprettes en batch-transkripsjonsjobb som refererer til S3-URI-en til denne filen i Amazon Transcribe. Både Amazon Transcribe i batch-modus og Amazon S3 bruker HTTP/1.1 over TLS for å beskytte data under overføring.

Alle forespørsler til Amazon Transcribe over HTTP og WebSockets må autentiseres ved hjelp av AWS signaturversjon 4. Det anbefales å bruke signaturversjon 4 for å autentisere HTTP-forespørsler til Amazon S3 også, selv om autentisering med eldre Signaturversjon 2 er også mulig i noen AWS-regioner. Apper må ha gyldig legitimasjon for å signere API-forespørsler til AWS-tjenester.

Beskyttelse av data i hvile

Amazon Transcribe i batch-modus bruker S3-bøtter til å lagre både inndata-lydfilen og utgangstranskripsjonsfilen. Kunder bruker en S3-bøtte til å lagre lydfilen, og det anbefales sterkt å aktivere kryptering på denne bøtten. Amazon Transcribe støtter følgende S3-krypteringsmetoder:

Begge metodene krypterer kundedata slik de skrives til disker og dekrypterer dem når du får tilgang til dem ved hjelp av en av de sterkeste blokksyfrene som er tilgjengelige: 256-bit Advanced Encryption Standard (AES-256) GCM. Når du bruker SSE-S3, administreres krypteringsnøkler og roteres regelmessig av Amazon S3-tjenesten. For ytterligere sikkerhet og samsvar gir SSE-KMS kundene kontroll over krypteringsnøkler via AWS nøkkelstyringstjeneste (AWS KMS). AWS KMS gir ekstra tilgangskontroller fordi du må ha tillatelser for å bruke de riktige KMS-nøklene for å kryptere og dekryptere objekter i S3-bøtter konfigurert med SSE-KMS. I tillegg gir SSE-KMS kundene en revisjonsspor-funksjon som holder oversikt over hvem som brukte KMS-nøklene dine og når.

Utgangstranskripsjonen kan lagres i samme eller en annen kundeeid S3-bøtte. I dette tilfellet gjelder de samme krypteringsalternativene SSE-S3 og SSE-KMS. Et annet alternativ for Amazon Transcribe-utdata i batch-modus er å bruke en tjenesteadministrert S3-bøtte. Deretter legges utdataene i en sikker S3-bøtte administrert av Amazon Transcribe-tjenesten, og du får en midlertidig URI som kan brukes til å laste ned transkripsjonen.

Amazon Transcribe bruker kryptert Amazon Elastic Block Store (Amazon EBS) volumer for å midlertidig lagre kundedata under mediebehandling. Kundedata ryddes opp for både komplette og feiltilfeller.

Beste praksis 2 – Kommuniser over en privat nettverksbane

Mange kunder er avhengige av kryptering under transport for å kommunisere sikkert med Amazon Transcribe over Internett. For enkelte applikasjoner kan det imidlertid hende at datakryptering under overføring ikke er tilstrekkelig for å oppfylle sikkerhetskravene. I noen tilfeller kreves data for ikke å krysse offentlige nettverk som internett. Det kan også være et krav om at applikasjonen skal distribueres i et privat miljø som ikke er koblet til internett. For å oppfylle disse kravene, bruk grensesnitt VPC-endepunkter drevet av AWS PrivateLink.

Det følgende arkitektoniske diagrammet viser et brukstilfelle der en applikasjon er distribuert på Amazon EC2. EC2-instansen som kjører applikasjonen har ikke tilgang til internett og kommuniserer med Amazon Transcribe og Amazon S3 via grensesnitt VPC-endepunkter.

En EC2-instans i en VPC kommuniserer med Amazon Transcribe og Amazon S3-tjenester i samme region via grensesnitt VPC-endepunkter.

I noen scenarier kan applikasjonen som kommuniserer med Amazon Transcribe bli distribuert i et lokalt datasenter. Det kan være ytterligere sikkerhets- eller samsvarskrav som krever at data som utveksles med Amazon Transcribe ikke må overføre offentlige nettverk som internett. I dette tilfellet, privat tilkobling via AWS Direct Connect kan bli brukt. Følgende diagram viser en arkitektur som gjør at en lokal applikasjon kan kommunisere med Amazon Transcribe uten tilkobling til internett.

Et bedriftsdatasenter med en applikasjonsserver er koblet til AWS-skyen via AWS Direct Connect. Den lokale applikasjonsserveren kommuniserer med Amazon Transcribe og Amazon S3-tjenester via AWS Direct Connect og deretter grensesnitt VPC-endepunkter.

Beste praksis 3 – Rediger sensitive data om nødvendig

Noen brukstilfeller og reguleringsmiljøer kan kreve fjerning av sensitive data fra transkripsjoner og lydfiler. Amazon Transcribe støtter identifisering og redigering av personlig identifiserbar informasjon (PII) som navn, adresser, personnummer og så videre. Denne funksjonen kan brukes til å gjøre det mulig for kunder å oppnå samsvar med betalingskortindustrien (PCI) ved å redigere PII som kreditt- eller debetkortnummer, utløpsdato og tresifret kortverifiseringskode (CVV). Transkripsjoner med redigert informasjon vil få PII erstattet med plassholdere i hakeparenteser som indikerer hvilken type PII som ble redigert. Streaming-transkripsjoner støtter den ekstra muligheten til å bare identifisere PII og merke den uten redaksjon. Typene PII som er redigert av Amazon Transcribe varierer mellom batch- og streaming-transkripsjoner. Referere til Redigerer PII i batchjobben din og Redigere eller identifisere PII i en sanntidsstrøm for mer informasjon.

Den spesialiserte Amazon Transscribe Call Analytics API-er har en innebygd evne til å redigere PII i både teksttranskripsjoner og lydfiler. Denne API-en bruker spesialiserte tale-til-tekst og naturlig språkbehandling (NLP)-modeller som er opplært spesielt for å forstå kundeservice og salgsanrop. For andre brukstilfeller kan du bruke denne løsningen å redigere PII fra lydfiler med Amazon Transcribe.

Ytterligere beste fremgangsmåter for Amazon Transcribe-sikkerhet

Beste praksis 4 – Bruk IAM-roller for applikasjoner og AWS-tjenester som krever Amazon Transcribe-tilgang. Når du bruker en rolle, trenger du ikke å distribuere langsiktig legitimasjon, for eksempel passord eller tilgangsnøkler, til en EC2-instans eller AWS-tjeneste. IAM-roller kan gi midlertidige tillatelser som applikasjoner kan bruke når de sender forespørsler til AWS-ressurser.

Beste praksis 5 – Bruk tag-basert tilgangskontroll. Du kan bruke tagger for å kontrollere tilgangen i AWS-kontoene dine. I Amazon Transcribe kan tagger legges til transkripsjonsjobber, tilpassede ordforråd, tilpassede ordforrådsfiltre og tilpassede språkmodeller.

Beste praksis 6 – Bruk AWS-overvåkingsverktøy. Overvåking er en viktig del av å opprettholde påliteligheten, sikkerheten, tilgjengeligheten og ytelsen til Amazon Transcribe og AWS-løsningene dine. Du kan overvåke Amazon Transcribe ved hjelp av AWS CloudTrail og Amazon CloudWatch.

Beste praksis 7 – aktiver AWS-konfig. AWS Config lar deg vurdere, revidere og evaluere konfigurasjonene til AWS-ressursene dine. Ved å bruke AWS Config kan du gjennomgå endringer i konfigurasjoner og relasjoner mellom AWS-ressurser, undersøke detaljerte ressurskonfigurasjonshistorier og fastslå din generelle samsvar med konfigurasjonene spesifisert i dine interne retningslinjer. Dette kan hjelpe deg med å forenkle samsvarsrevisjon, sikkerhetsanalyse, endringsadministrasjon og operasjonell feilsøking.

Samsvarsvalidering for Amazon Transcribe

Applikasjoner som du bygger på AWS kan være underlagt compliance-programmer, slik som SOC, PCI, FedRAMP og HIPAA. AWS bruker tredjepartsrevisorer for å evaluere tjenestene sine for samsvar med ulike programmer. AWS-artefakt lar deg laste ned tredjeparts revisjonsrapporter.

For å finne ut om en AWS-tjeneste er innenfor rammen av spesifikke overholdelsesprogrammer, se AWS-tjenester i omfang etter samsvarsprogram. For ytterligere informasjon og ressurser som AWS gir for å hjelpe kunder med overholdelse, se Samsvarsvalidering for Amazon Transcribe og AWS-samsvarsressurser.

konklusjonen

I dette innlegget har du lært om ulike sikkerhetsmekanismer, beste praksis og arkitektoniske mønstre som er tilgjengelige for deg for å bygge sikre applikasjoner med Amazon Transcribe. Du kan beskytte dine sensitive data både under overføring og hvile med sterk kryptering. PII-redigering kan brukes til å muliggjøre fjerning av personlig informasjon fra transkripsjonene dine hvis du ikke ønsker å behandle og lagre den. VPC-endepunkter og Direct Connect lar deg etablere privat tilkobling mellom applikasjonen din og Amazon Transcribe-tjenesten. Vi har også gitt referanser som vil hjelpe deg å validere samsvar med applikasjonen din ved å bruke Amazon Transcribe med programmer som SOC, PCI, FedRAMP og HIPAA.

Som neste trinn, sjekk ut Komme i gang med Amazon Transcribe for raskt å begynne å bruke tjenesten. Referere til Amazon Transcribe-dokumentasjon for å dykke dypere inn i tjenestedetaljene. Og følg med Amazon Transcribe på AWS Machine Learning Blog for å holde deg oppdatert med nye funksjoner og brukstilfeller for Amazon Transcribe.


om forfatteren

Portrettbilde av Alex Bulatkin, en løsningsarkitekt ved AWS

Alex Bulatkin er løsningsarkitekt hos AWS. Han liker å hjelpe kommunikasjonstjenesteleverandører med å bygge innovative løsninger i AWS som redefinerer telekomindustrien. Han brenner for å jobbe med kunder for å bringe kraften til AWS AI-tjenester inn i applikasjonene deres. Alex er basert i hovedstadsområdet Denver og liker å gå på ski, gå på ski og snowboard.

spot_img

Siste etterretning

spot_img