Zephyrnet-logo

Maak audio voor inhoud in meerdere talen met dezelfde TTS-stempersona in Amazon Polly

Datum:

Amazon Polly is een toonaangevende cloudgebaseerde service die tekst omzet in levensechte spraak. Na de invoering van Neural Text-to-Speech (NTTS), hebben we ons portfolio van beschikbare stemmen voortdurend uitgebreid om een ​​brede selectie van verschillende sprekers in ondersteunde talen te kunnen bieden. Vandaag zijn we verheugd om vier nieuwe toevoegingen aan te kondigen: Pedro spreekt Amerikaans Spaans, Daniel spreekt Duits, Liam spreekt Canadees Frans en Arthur spreekt Brits Engels. Zoals met alle Neurale stemmen in ons portfolio, bieden deze stemmen een vloeiende, native uitspraak in hun doeltalen. Wat echter uniek is aan deze vier stemmen, is dat ze allemaal gebaseerd zijn op hetzelfde stempersonage.

Pedro, Daniel, Liam en Arthur werden gemodelleerd naar een bestaande Amerikaans-Engelse Matthew-stem. Terwijl klanten Matthew blijven waarderen om zijn natuurlijkheid en professioneel klinkende kwaliteit, heeft de stem tot nu toe uitsluitend Engelstalig verkeer bediend. Nu hebben we met behulp van diepgaande leermethoden de taal en de identiteit van de spreker ontkoppeld, waardoor we de vloeiendheid van de moedertaal in veel talen konden behouden zonder dat we meertalige gegevens van dezelfde spreker hoefden te verkrijgen. In de praktijk betekent dit dat we de vocale kenmerken van de Amerikaans-Engelse Matthew-stem hebben overgebracht naar Amerikaans Spaans, Duits, Canadees Frans en Brits Engels, waardoor nieuwe mogelijkheden ontstaan ​​voor Amazon Polly-klanten.

Het hebben van een soortgelijk klinkende stem die beschikbaar is in vijf landen biedt een groot potentieel voor bedrijfsgroei. Allereerst kunnen klanten met een wereldwijde aanwezigheid een consistente gebruikerservaring creëren in alle talen en regio's. Een interactief voice response-systeem (IVR) dat meerdere talen ondersteunt, kan nu bijvoorbeeld verschillende klantsegmenten bedienen zonder het gevoel van het merk te veranderen. Hetzelfde geldt voor alle andere TTS-gebruiksscenario's, zoals het inspreken van nieuwsartikelen, educatief materiaal of podcasts.

Ten tweede passen de stemmen goed bij Amazon Polly-klanten die op zoek zijn naar een native uitspraak van buitenlandse zinnen in een van de vijf ondersteunde talen.

Ten derde bedient het uitbrengen van Pedro, Daniel, Liam en Arthur onze klanten die van Amazon Polly NTTS houden in Amerikaans Spaans, Duits, Canadees Frans en Brits Engels, maar op zoek zijn naar een mannelijke stem van hoge kwaliteit - ze kunnen deze stemmen gebruiken om audio te creëren voor eentalige inhoud en verwacht topkwaliteit die vergelijkbaar is met andere NTTS-stemmen in deze talen.

Ten slotte kan de technologie die we hebben ontwikkeld om de nieuwe mannelijke NTTS-stemmen te creëren, ook worden gebruikt voor: Merkstemmen. Hierdoor kunnen Brand Voice-klanten niet alleen genieten van een unieke NTTS-stem die is afgestemd op hun merk, maar ook een consistente ervaring behouden terwijl ze een internationaal publiek bedienen.

Voorbeeld use case

Laten we een voorbeeld van een use-case bekijken om aan te tonen wat dit in de praktijk betekent. Amazon Polly-klanten die Matthew kennen, kunnen deze stem nog steeds op de gebruikelijke manier gebruiken door te kiezen voor Matthew op de Amazon Polly-console en elke tekst invoeren die ze in het Amerikaans-Engels willen horen. In het volgende scenario genereren we audiovoorbeelden voor een IVR-systeem (“For English, please press one”):

Dankzij deze release kun je de use case nu uitbreiden om een ​​consistente audio-ervaring in verschillende talen te leveren. Alle nieuwe stemmen klinken natuurlijk en behouden een native-achtig accent.

  • Om spraak in Brits Engels te genereren, kiest u Arthur (“For English, please press one”):
  • Om een ​​Amerikaans Spaans spreker te gebruiken, kiest u Pedro (“Para español, por favor marque dos”):
  • Daniel biedt ondersteuning in het Duits (“Für Deutsch drücken Sie bitte die Drei”):
  • U kunt tekst in Canadees-Frans synthetiseren door Liam ("Pour le français, veuillez appuyer sur le quatre") te kiezen:

Houd er rekening mee dat de Engels-Engelse Arthur-stem, afgezien van het spreken met een ander accent, de invoertekst anders zal lokaliseren dan de Amerikaans-Engelse Matthew-stem. Bijvoorbeeld, "1/2/22" zal door Arthur worden gelezen als "1 februari 2022", terwijl Matthew het zal lezen als "2 januari 2022".

Laten we nu deze prompts combineren:

Conclusie

Pedro, Daniel, Liam en Arthur zijn alleen beschikbaar als neurale TTS-stemmen, dus om ervan te genieten, moet je de neurale engine gebruiken in een van de AWS-regio's die NTTS ondersteunen. Deze zijn van hoge kwaliteit eentalige stemmen in hun doeltalen. Het feit dat hun persona's in alle talen consistent zijn, is een bijkomend voordeel, waarvan we hopen dat het klanten zal verrassen die met inhoud in meerdere talen werken. Bekijk voor meer informatie onze volledige lijst met Amazon Polly tekst-naar-spraak stemmen , Neurale TTS-prijzen, servicelimieten en Veelgestelde vragen , en bezoek onze prijsstelling pagina.


Over de auteurs

Patryk Wainaina is een taalingenieur die werkt aan tekst-naar-spraak voor Engels, Duits en Spaans. Met een achtergrond in spraak- en taalverwerking, ligt zijn interesse in machine learning zoals toegepast op TTS front-end-oplossingen, met name in omgevingen met weinig middelen. In zijn vrije tijd luistert hij graag naar elektronische muziek en leert hij graag nieuwe talen.

Marta Smolarek is Senior Program Manager in het Amazon Text-to-Speech-team, waar ze zich richt op de Contact Center TTS-use case. Ze definieert Go-to-Market-initiatieven, gebruikt feedback van klanten om de productroadmap op te bouwen en coördineert TTS-spraaklanceringen. Naast haar werk gaat ze graag kamperen met haar gezin.

spot_img

Laatste intelligentie

spot_img