ゼファーネットのロゴ

AmazonPollyで同じTTS音声ペルソナを使用して複数の言語でコンテンツのオーディオを作成する

日付:

Amazon Polly は、テキストをリアルな音声に変換する主要なクラウドベースのサービスです。 Neural Text-to-Speech(NTTS)の採用に続いて、サポートされている言語でさまざまなスピーカーを提供するために、利用可能な音声のポートフォリオを継続的に拡大してきました。 本日、米国スペイン語を話すペドロ、ドイツ語を話すダニエル、カナダフランス語を話すリアム、イギリス英語を話すアーサーのXNUMXつの新しい追加を発表できることを嬉しく思います。 私たちのポートフォリオのすべてのニューラルボイスと同様に、これらのボイスは、ターゲット言語で流暢なネイティブの発音を提供します。 ただし、これらXNUMXつの音声のユニークな点は、すべて同じ音声ペルソナに基づいていることです。

ペドロ、ダニエル、リアム、アーサーは、既存のアメリカ英語のマシューの声をモデルにしています。 顧客はマシューの自然さとプロ並みの品質を引き続き高く評価していますが、これまでのところ、音声は英語を話すトラフィックのみに対応しています。 現在、ディープラーニング手法を使用して、言語と話者のアイデンティティを分離しました。これにより、同じ話者から多言語データを取得しなくても、多くの言語でネイティブのような流暢さを保つことができました。 実際には、これは、米国英語のマシューの声の特徴を米国スペイン語、ドイツ語、カナダフランス語、および英国英語に移し、AmazonPollyの顧客に新しい機会を開くことを意味します。

XNUMXつのロケールで同様の音声を利用できるようにすることで、ビジネスの成長に大きな可能性を開くことができます。 まず第一に、グローバルなフットプリントを持つ顧客は、言語や地域全体で一貫したユーザーエクスペリエンスを作成できます。 たとえば、複数の言語をサポートする対話型音声応答(IVR)システムは、ブランドの雰囲気を変えることなく、さまざまな顧客セグメントにサービスを提供できるようになりました。 ニュース記事、教材、ポッドキャストの音声など、他のすべてのTTSユースケースについても同じことが言えます。

第二に、音声は、サポートされているXNUMXつの言語のいずれかで外国語のフレーズのネイティブ発音を探しているAmazonPollyのお客様に最適です。

第三に、Pedro、Daniel、Liam、Arthurのリリースは、米国スペイン語、ドイツ語、カナダフランス語、イギリス英語のAmazon Polly NTTSが好きで、高品質の男性的な声を探しているお客様にサービスを提供します。これらの声を使用して音声を作成できます単言語コンテンツの場合、これらの言語の他のNTTS音声と同等の最高品質を期待します。

最後に、新しい男性のNTTSボイスを作成するために開発したテクノロジーは、 ブランドの声。 これにより、ブランドボイスのお客様は、ブランドに合わせた独自のNTTSボイスを楽しむだけでなく、海外の視聴者にサービスを提供しながら一貫した体験を維持することができます。

ユースケースの例

これが実際に何を意味するかを示すために、ユースケースの例を調べてみましょう。 マシューに精通しているAmazonPollyのお客様は、次のいずれかを選択することで、通常の方法でこの音声を使用できます。 マシュー Amazon Pollyコンソールで、聞きたいテキストを米国英語で入力します。 次のシナリオでは、IVRシステムのオーディオサンプルを生成します(「英語の場合は、XNUMXつ押してください」)。

このリリースのおかげで、ユースケースを拡張して、さまざまな言語で一貫したオーディオエクスペリエンスを提供できるようになりました。 新しい声はすべて自然な響きで、ネイティブのようなアクセントを維持しています。

  • イギリス英語でスピーチを生成するには、Arthurを選択します(「英語の場合は、XNUMXつ押してください」)。
  • 米国のスペイン語話者を使用するには、Pedro(「Paraespañol、por favour marquedos」)を選択します。
  • ダニエルはドイツ語でサポートを提供しています(「FürDeutschdrückenSiebittedieDrei」):
  • Liam(“ Pourlefrançais、veuillez appuyer sur le quatre”)を選択すると、カナダフランス語のテキストを合成できます。

別のアクセントで話すことは別として、イギリス英語のアーサーの声は、アメリカ英語のマシューの声とは異なる方法で入力テキストをローカライズすることに注意してください。 たとえば、「1/2/22」はアーサーによって「1年2022月2日」と読み取られますが、マシューは「2022年XNUMX月XNUMX日」と読み取られます。

次に、これらのプロンプトを組み合わせてみましょう。

まとめ

Pedro、Daniel、Liam、ArthurはNeural TTSボイスとしてのみ使用できるため、これらを楽しむには、いずれかのNeuralエンジンを使用する必要があります。 NTTSをサポートするAWSリージョン。 これらは高品質です 単一言語の声 ターゲット言語で。 ペルソナが言語間で一貫しているという事実は、追加の利点であり、複数の言語のコンテンツを扱う顧客を喜ばせることを願っています。 詳細については、AmazonPollyの全リストを確認してください テキスト読み上げ音声 , ニューラルTTSの価格, サービス制限, よくあるご質問、および 価格設定ページ.


著者について

パトリック・ワイナイナ は、英語、ドイツ語、スペイン語のテキスト読み上げに取り組んでいる言語エンジニアです。 音声および言語処理のバックグラウンドを持つ彼の関心は、TTSフロントエンドソリューションに適用される機械学習、特にリソースの少ない設定にあります。 余暇には、電子音楽を聴いたり、新しい言語を学んだりしています。

マルタ・スモラレク は、Amazon Text-to-Speechチームのシニアプログラムマネージャーであり、ContactCenterTTSのユースケースに焦点を当てています。 彼女はGo-to-Marketイニシアチブを定義し、顧客のフィードバックを使用して製品ロードマップを作成し、TTS音声起動を調整します。 仕事以外では、家族と一緒にキャンプに行くのが大好きです。

スポット画像

最新のインテリジェンス

スポット画像

私たちとチャット

やあ! どんな御用でしょうか?