Zephyrnet-logo

Best practices voor het bouwen van veilige applicaties met Amazon Transcribe | Amazon-webservices

Datum:

Amazon Transcribe is een AWS-service waarmee klanten spraak naar tekst kunnen converteren in batch- of streamingmodus. Het maakt gebruik van door machine learning aangedreven automatische spraakherkenning (ASR), automatische taalidentificatie en naverwerkingstechnologieën. Amazon Transcribe kan worden gebruikt voor de transcriptie van klantenservicegesprekken, conferentiegesprekken met meerdere partijen en voicemailberichten, maar ook voor het genereren van ondertitels voor opgenomen en live video's, om maar een paar voorbeelden te noemen. In deze blogpost leert u hoe u uw applicaties kunt voorzien van Amazon Transcribe-mogelijkheden op een manier die aan uw beveiligingsvereisten voldoet.

Sommige klanten vertrouwen Amazon Transcribe gegevens toe die vertrouwelijk zijn en eigendom zijn van hun bedrijf. In andere gevallen kan de door Amazon Transcribe verwerkte audiocontent gevoelige gegevens bevatten die moeten worden beschermd om te voldoen aan lokale wet- en regelgeving. Voorbeelden van dergelijke informatie zijn persoonlijk identificeerbare informatie (PII), persoonlijke gezondheidsinformatie (PHI) en gegevens uit de betaalkaartindustrie (PCI). In de volgende secties van de blog bespreken we verschillende mechanismen die Amazon Transcribe heeft om klantgegevens te beschermen, zowel onderweg als in rust. We delen de volgende zeven best practices op het gebied van beveiliging om met Amazon Transcribe applicaties te bouwen die voldoen aan uw beveiligings- en compliancevereisten:

  1. Gebruik gegevensbescherming met Amazon Transcribe
  2. Communiceer via een privénetwerkpad
  3. Bewerk gevoelige gegevens indien nodig
  4. Gebruik IAM-rollen voor applicaties en AWS-services waarvoor Amazon Transcribe-toegang vereist is
  5. Gebruik taggebaseerde toegangscontrole
  6. Gebruik AWS-monitoringtools
  7. Schakel AWS-configuratie in

De volgende best practices zijn algemene richtlijnen en vertegenwoordigen geen volledige beveiligingsoplossing. Omdat deze best practices mogelijk niet geschikt of voldoende zijn voor uw omgeving, dient u ze te gebruiken als nuttige overwegingen in plaats van als voorschriften.

Beste praktijk 1 – Gebruik gegevensbescherming met Amazon Transcribe

Amazon Transcribe voldoet aan de AWS-model voor gedeelde verantwoordelijkheid, waarin de verantwoordelijkheid van AWS voor de beveiliging van de cloud wordt onderscheiden van de verantwoordelijkheid van de klant voor beveiliging in de cloud.

AWS is verantwoordelijk voor het beschermen van de wereldwijde infrastructuur waarop de gehele AWS Cloud draait. Als klant bent u verantwoordelijk voor het behouden van controle over uw inhoud die op deze infrastructuur wordt gehost. Deze inhoud omvat de beveiligingsconfiguratie en beheertaken voor de AWS-services die u gebruikt. Voor meer informatie over gegevensprivacy, zie de Veelgestelde vragen over gegevensprivacy.

Gegevens onderweg beschermen

Gegevensversleuteling wordt gebruikt om ervoor te zorgen dat de gegevenscommunicatie tussen uw applicatie en Amazon Transcribe vertrouwelijk blijft. Het gebruik van sterke cryptografische algoritmen beschermt gegevens terwijl deze worden verzonden.

Amazon Transcribe kan in een van de twee modi werken:

  • Streaming-transcripties laat transcriptie van mediastreams in realtime toe
  • Batchtranscriptietaken laat transcriptie van audiobestanden toe met behulp van asynchrone taken.

In de streamingtranscriptiemodus openen clienttoepassingen een bidirectionele streamingverbinding via HTTP/2 of WebSockets. Een applicatie stuurt een audiostream naar Amazon Transcribe en de dienst reageert in realtime met een tekststroom. Zowel HTTP/2- als WebSockets-streamingverbindingen worden tot stand gebracht via Transport Layer Security (TLS), een algemeen geaccepteerd cryptografisch protocol. TLS biedt authenticatie en versleuteling van gegevens die onderweg zijn met behulp van AWS-certificaten. We raden u aan TLS 1.2 of hoger te gebruiken.

In de batchtranscriptiemodus moet een audiobestand eerst in een Eenvoudige opslagservice van Amazon (Amazon S3) emmer. Vervolgens wordt er in Amazon Transcribe een batchtranscriptietaak gemaakt die verwijst naar de S3-URI van dit bestand. Zowel Amazon Transcribe in batchmodus als Amazon S3 gebruiken HTTP/1.1 via TLS om gegevens tijdens de overdracht te beschermen.

Alle verzoeken aan Amazon Transcribe via HTTP en WebSockets moeten worden geverifieerd met behulp van AWS-handtekening versie 4. Het wordt aanbevolen om Signature Versie 4 te gebruiken om ook HTTP-verzoeken naar Amazon S3 te authenticeren, hoewel authenticatie met oudere versies mogelijk is Handtekeningversie 2 is ook mogelijk in sommige AWS-regio's. Applicaties moeten geldige inloggegevens hebben om API-verzoeken bij AWS-services te ondertekenen.

Gegevens in rust beschermen

Amazon Transcribe in batchmodus gebruikt S3-buckets om zowel het invoeraudiobestand als het uitvoertranscriptiebestand op te slaan. Klanten gebruiken een S3-bucket om het invoeraudiobestand op te slaan, en het wordt ten zeerste aanbevolen om codering op deze bucket in te schakelen. Amazon Transcribe ondersteunt de volgende S3-coderingsmethoden:

Beide methoden coderen klantgegevens terwijl deze naar schijven worden geschreven en decoderen deze wanneer u deze opent met behulp van een van de sterkste blokcoderingen die beschikbaar zijn: 256-bit Advanced Encryption Standard (AES-256) GCM. Bij gebruik van SSE-S3 worden encryptiesleutels beheerd en regelmatig gerouleerd door de Amazon S3-service. Voor extra beveiliging en compliance biedt SSE-KMS klanten controle over encryptiesleutels via AWS Sleutelbeheerservice (AWS KMS). AWS KMS biedt extra toegangscontroles omdat u machtigingen moet hebben om de juiste KMS-sleutels te gebruiken om objecten in S3-buckets die zijn geconfigureerd met SSE-KMS te versleutelen en ontsleutelen. Bovendien biedt SSE-KMS klanten een audittrailmogelijkheid die bijhoudt wie uw KMS-sleutels heeft gebruikt en wanneer.

De uitvoertranscriptie kan worden opgeslagen in dezelfde of een andere S3-bucket van de klant. In dit geval zijn dezelfde SSE-S3- en SSE-KMS-coderingsopties van toepassing. Een andere optie voor Amazon Transcribe-uitvoer in batchmodus is het gebruik van een door service beheerde S3-bucket. Vervolgens worden de uitvoergegevens in een beveiligde S3-bucket geplaatst die wordt beheerd door de Amazon Transcribe-service, en krijgt u een tijdelijke URI die kan worden gebruikt om uw transcript te downloaden.

Amazon Transcribe gebruikt gecodeerd Amazon Elastic Block Store (Amazon EBS) volumes om klantgegevens tijdelijk op te slaan tijdens mediaverwerking. De klantgegevens worden opgeschoond voor zowel complete als foutgevallen.

Best practice 2 – Communiceren via een particulier netwerkpad

Veel klanten vertrouwen op encryptie tijdens het transport om veilig via internet met Amazon Transcribe te communiceren. Voor sommige toepassingen is gegevensversleuteling tijdens de overdracht echter mogelijk niet voldoende om aan de beveiligingsvereisten te voldoen. In sommige gevallen zijn gegevens nodig om openbare netwerken zoals internet niet te kunnen passeren. Het kan ook nodig zijn dat de applicatie wordt geïmplementeerd in een privéomgeving die niet met internet is verbonden. Gebruik om aan deze vereisten te voldoen interface VPC-eindpunten Mogelijk gemaakt door AWS PrivéLink.

Het volgende architectuurdiagram demonstreert een gebruiksscenario waarin een applicatie wordt geïmplementeerd Amazon EC2. De EC2-instantie waarop de applicatie draait, heeft geen toegang tot internet en communiceert met Amazon Transcribe en Amazon S3 via interface-VPC-eindpunten.

Een EC2-instantie binnen een VPC communiceert met Amazon Transcribe- en Amazon S3-services in dezelfde regio via interface-VPC-eindpunten.

In sommige scenario's kan de applicatie die communiceert met Amazon Transcribe worden geïmplementeerd in een lokaal datacenter. Er kunnen aanvullende beveiligings- of nalevingsvereisten gelden die vereisen dat gegevens die met Amazon Transcribe worden uitgewisseld, niet via openbare netwerken zoals internet mogen gaan. In dit geval is er privéconnectiviteit via AWS Direct Connect kan worden gebruikt. Het volgende diagram toont een architectuur waarmee een on-premises applicatie kan communiceren met Amazon Transcribe zonder enige verbinding met internet.

Een bedrijfsdatacenter met een applicatieserver is via AWS Direct Connect verbonden met de AWS-cloud. De lokale applicatieserver communiceert met Amazon Transcribe- en Amazon S3-services via AWS Direct Connect en koppelt vervolgens VPC-eindpunten.

Best practice 3 – Rediseer gevoelige gegevens indien nodig

Sommige gebruiksscenario's en regelgevingsomgevingen vereisen mogelijk de verwijdering van gevoelige gegevens uit transcripties en audiobestanden. Amazon Transcribe ondersteunt het identificeren en redigeren van persoonlijk identificeerbare informatie (PII), zoals namen, adressen, burgerservicenummers, enzovoort. Deze mogelijkheid kan worden gebruikt om klanten in staat te stellen te voldoen aan de eisen van de betaalkaartindustrie (PCI) door PII, zoals het nummer van de creditcard of debetkaart, de vervaldatum en de driecijferige kaartverificatiecode (CVV) te redigeren. Bij transcripties met geredigeerde informatie wordt de PII vervangen door tijdelijke aanduidingen tussen vierkante haakjes, die aangeven welk type PII is geredigeerd. Streamingtranscripties ondersteunen de extra mogelijkheid om alleen PII te identificeren en te labelen zonder redactie. De soorten PII die door Amazon Transcribe worden geredigeerd, variëren tussen batch- en streaming-transcripties. Verwijzen naar PII redigeren in uw batchtaak en Redigeren of identificeren van PII in een real-time stream voor meer details.

De gespecialiseerde Amazon Transcribe Oproepanalyse API's hebben een ingebouwde mogelijkheid om PII in zowel teksttranscripties als audiobestanden te redigeren. Deze API maakt gebruik van gespecialiseerde spraak-naar-tekst- en natuurlijke taalverwerkingsmodellen (NLP) die specifiek zijn getraind om klantenservice en verkoopgesprekken te begrijpen. Voor andere gebruiksscenario's kunt u gebruiken deze oplossing om PII uit audiobestanden te redigeren met Amazon Transcribe.

Aanvullende best practices voor Amazon Transcribe-beveiliging

Beste praktijk 4 – Te gebruiken IAM-rollen voor applicaties en AWS-services waarvoor Amazon Transcribe-toegang vereist is. Wanneer u een rol gebruikt, hoeft u geen langetermijnreferenties, zoals wachtwoorden of toegangssleutels, te distribueren naar een EC2-instantie of AWS-service. IAM-rollen kunnen tijdelijke machtigingen leveren die applicaties kunnen gebruiken wanneer ze verzoeken indienen bij AWS-bronnen.

Beste praktijk 5 – Te gebruiken op tags gebaseerde toegangscontrole. U kunt tags gebruiken om de toegang binnen uw AWS-accounts te controleren. In Amazon Transcribe kunnen tags worden toegevoegd aan transcriptietaken, aangepaste woordenlijsten, aangepaste woordenschatfilters en aangepaste taalmodellen.

Beste praktijk 6 – Gebruik AWS-monitoringtools. Monitoring is een belangrijk onderdeel van het handhaven van de betrouwbaarheid, veiligheid, beschikbaarheid en prestaties van Amazon Transcribe en uw AWS-oplossingen. Jij kan monitor Amazon Transcribe met AWS CloudTrail en Amazon Cloud Watch.

Beste praktijk 7 – Enable AWS-configuratie. Met AWS Config kunt u de configuraties van uw AWS-bronnen beoordelen, controleren en evalueren. Met AWS Config kunt u wijzigingen in configuraties en relaties tussen AWS-resources bekijken, gedetailleerde geschiedenis van resourceconfiguratie onderzoeken en bepalen of uw algehele naleving voldoet aan de configuraties die zijn gespecificeerd in uw interne richtlijnen. Dit kan u helpen de compliance-audit, beveiligingsanalyse, wijzigingsbeheer en operationele probleemoplossing te vereenvoudigen.

Nalevingsvalidatie voor Amazon Transcribe

Applicaties die u op AWS bouwt, kunnen onderworpen zijn aan complianceprogramma's, zoals SOC, PCI, FedRAMP en HIPAA. AWS maakt gebruik van externe auditors om zijn diensten te beoordelen op naleving van verschillende programma's. AWS-artefact kunt u auditrapporten van derden downloaden.

Als u wilt weten of een AWS-service binnen het bereik van specifieke nalevingsprogramma's valt, raadpleegt u AWS-services vallen onder het complianceprogramma. Voor aanvullende informatie en bronnen die AWS biedt om klanten te helpen met compliance, raadpleegt u Nalevingsvalidatie voor Amazon Transcribe en AWS-nalevingsbronnen.

Conclusie

In dit bericht heb je geleerd over verschillende beveiligingsmechanismen, best practices en architecturale patronen die beschikbaar zijn om veilige applicaties te bouwen met Amazon Transcribe. U kunt uw gevoelige gegevens, zowel onderweg als in rust, beschermen met krachtige encryptie. PII-redactie kan worden gebruikt om het verwijderen van persoonlijke gegevens uit uw transcripties mogelijk te maken als u deze niet wilt verwerken en opslaan. Met VPC-eindpunten en Direct Connect kunt u privéconnectiviteit tot stand brengen tussen uw applicatie en de Amazon Transcribe-service. We hebben ook referenties verstrekt die u zullen helpen bij het valideren van de naleving van uw applicatie met behulp van Amazon Transcribe met programma's zoals SOC, PCI, FedRAMP en HIPAA.

Als volgende stappen, ga naar Aan de slag met Amazon Transcribe om snel gebruik te kunnen maken van de dienst. Verwijzen naar Amazon Transcribe-documentatie om dieper in de servicedetails te duiken. En volg Amazon transcribeert op de AWS Machine Learning Blog om op de hoogte te blijven van nieuwe mogelijkheden en gebruiksscenario's voor Amazon Transcribe.


Over de auteur

Portretfoto van Alex Bulatkin, een Solutions Architect bij AWS

Alex Bulatkin is een oplossingsarchitect bij AWS. Hij helpt leveranciers van communicatiediensten graag bij het bouwen van innovatieve oplossingen in AWS die de telecomindustrie opnieuw definiëren. Hij heeft een passie voor het samenwerken met klanten om de kracht van AWS AI-services in hun applicaties te brengen. Alex is gevestigd in het grootstedelijk gebied van Denver en houdt van wandelen, skiën en snowboarden.

spot_img

Laatste intelligentie

spot_img