Logo Zéphyrnet

Créez de l'audio pour du contenu dans plusieurs langues avec le même personnage vocal TTS dans Amazon Polly

Date :

Amazon Polly est un service cloud de premier plan qui convertit le texte en paroles réalistes. Suite à l'adoption de Neural Text-to-Speech (NTTS), nous avons continuellement élargi notre portefeuille de voix disponibles afin de fournir une large sélection de locuteurs distincts dans les langues prises en charge. Aujourd'hui, nous sommes heureux d'annoncer quatre nouveaux ajouts : Pedro parlant l'espagnol américain, Daniel parlant l'allemand, Liam parlant le français canadien et Arthur parlant l'anglais britannique. Comme pour toutes les voix neurales de notre portefeuille, ces voix offrent une prononciation native et fluide dans leurs langues cibles. Cependant, ce qui est unique à propos de ces quatre voix, c'est qu'elles sont toutes basées sur le même personnage vocal.

Pedro, Daniel, Liam et Arthur ont été calqués sur une voix anglaise existante de Matthew. Alors que les clients continuent d'apprécier Matthew pour son naturel et sa qualité sonore professionnelle, la voix a jusqu'à présent exclusivement servi le trafic anglophone. Maintenant, en utilisant des méthodes d'apprentissage en profondeur, nous avons découplé la langue et l'identité du locuteur, ce qui nous a permis de préserver une aisance quasi native dans de nombreuses langues sans avoir à obtenir des données multilingues du même locuteur. En pratique, cela signifie que nous avons transféré les caractéristiques vocales de la voix de Matthew en anglais américain vers l'espagnol américain, l'allemand, le français canadien et l'anglais britannique, ouvrant de nouvelles opportunités aux clients d'Amazon Polly.

Avoir une voix au son similaire disponible dans cinq régions ouvre un grand potentiel de croissance commerciale. Tout d'abord, les clients ayant une empreinte mondiale peuvent créer une expérience utilisateur cohérente dans toutes les langues et régions. Par exemple, un système de réponse vocale interactive (IVR) qui prend en charge plusieurs langues peut désormais servir différents segments de clientèle sans changer l'ambiance de la marque. Il en va de même pour tous les autres cas d'utilisation de TTS, tels que l'expression d'articles de presse, de supports pédagogiques ou de podcasts.

Deuxièmement, les voix conviennent parfaitement aux clients d'Amazon Polly qui recherchent une prononciation native de phrases étrangères dans l'une des cinq langues prises en charge.

Troisièmement, la sortie de Pedro, Daniel, Liam et Arthur sert nos clients qui aiment Amazon Polly NTTS en espagnol américain, allemand, français canadien et anglais britannique, mais qui recherchent une voix masculine de haute qualité. Ils peuvent utiliser ces voix pour créer de l'audio. pour un contenu monolingue et attendez-vous à une qualité supérieure comparable à celle des autres voix NTTS dans ces langues.

Enfin, la technologie que nous avons développée pour créer les nouvelles voix masculines NTTS peut également être utilisée pour Voix de la marque. Grâce à cela, les clients de Brand Voice peuvent non seulement profiter d'une voix NTTS unique adaptée à leur marque, mais également conserver une expérience cohérente tout en servant un public international.

Exemple de cas d'utilisation

Explorons un exemple de cas d'utilisation pour démontrer ce que cela signifie dans la pratique. Les clients d'Amazon Polly qui connaissent Matthew peuvent toujours utiliser cette voix de la manière habituelle en choisissant Matthieu sur la console Amazon Polly et en saisissant le texte qu'ils souhaitent entendre en anglais américain. Dans le scénario suivant, nous générons des échantillons audio pour un système IVR ("Pour l'anglais, veuillez appuyer sur un") :

Grâce à cette version, vous pouvez désormais étendre le cas d'utilisation pour offrir une expérience audio cohérente dans différentes langues. Toutes les nouvelles voix ont un son naturel et conservent un accent natif.

  • Pour générer de la parole en anglais britannique, choisissez Arthur ("Pour l'anglais, veuillez appuyer sur un") :
  • Pour utiliser un hispanophone américain, choisissez Pedro ("Para español, por favor marque dos") :
  • Daniel propose une assistance en allemand (« Für Deutsch drücken Sie bitte die Drei ») :
  • Vous pouvez synthétiser du texte en français canadien en choisissant Liam ("Pour le français, veuillez appuyer sur le quatre") :

Notez qu'en plus de parler avec un accent différent, la voix britannique d'Arthur en anglais localisera le texte d'entrée différemment de la voix en anglais américain de Matthew. Par exemple, "1/2/22" sera lu par Arthur comme "le 1er février 2022", alors que Matthew le lira comme "le 2 janvier 2022".

Combinons maintenant ces invites :

Conclusion

Pedro, Daniel, Liam et Arthur sont uniquement disponibles en tant que voix Neural TTS, donc pour en profiter, vous devez utiliser le moteur Neural dans l'un des Régions AWS prenant en charge NTTS. Ce sont de haute qualité voix monolingues dans leurs langues cibles. Le fait que leurs personnages soient cohérents dans toutes les langues est un avantage supplémentaire qui, nous l'espérons, ravira les clients travaillant avec du contenu dans plusieurs langues. Pour plus de détails, consultez notre liste complète d'Amazon Polly voix de synthèse vocale , Tarification TTS neuronale, limites de serviceet FAQ, et visitez notre page prix.


À propos des auteurs

Patryk Wainaina est un ingénieur linguistique travaillant sur la synthèse vocale pour l'anglais, l'allemand et l'espagnol. Avec une formation en traitement de la parole et du langage, ses intérêts résident dans l'apprentissage automatique appliqué aux solutions frontales TTS, en particulier dans les environnements à faibles ressources. Pendant son temps libre, il aime écouter de la musique électronique et apprendre de nouvelles langues.

Marta Smolarek est responsable de programme senior au sein de l'équipe Amazon Text-to-Speech, où elle se concentre sur le cas d'utilisation du Contact Center TTS. Elle définit les initiatives de mise sur le marché, utilise les commentaires des clients pour élaborer la feuille de route du produit et coordonne les lancements de voix TTS. En dehors du travail, elle adore faire du camping avec sa famille.

spot_img

Dernières informations

spot_img

Discutez avec nous

Salut! Comment puis-je t'aider?