Logo Zephyrnet

Tạo âm thanh cho nội dung bằng nhiều ngôn ngữ với cùng một giọng nói TTS trong Amazon Polly

Ngày:

Amazon Polly là một dịch vụ dựa trên đám mây hàng đầu giúp chuyển đổi văn bản thành lời nói sống động như thật. Sau khi áp dụng Neural Text-to-Speech (NTTS), chúng tôi đã liên tục mở rộng danh mục giọng nói sẵn có của mình để cung cấp nhiều lựa chọn về người nói khác biệt bằng các ngôn ngữ được hỗ trợ. Hôm nay, chúng tôi vui mừng thông báo bốn bổ sung mới: Pedro nói tiếng Tây Ban Nha Mỹ, Daniel nói tiếng Đức, Liam nói tiếng Pháp Canada và Arthur nói tiếng Anh Anh. Giống như tất cả các giọng Neural trong danh mục đầu tư của chúng tôi, những giọng nói này cung cấp khả năng phát âm trôi chảy, bản ngữ bằng ngôn ngữ mục tiêu của chúng. Tuy nhiên, điểm độc đáo của bốn giọng nói này là chúng đều dựa trên cùng một tính cách giọng nói.

Pedro, Daniel, Liam và Arthur được mô phỏng theo giọng nói tiếng Anh Matthew của Mỹ hiện có. Trong khi khách hàng tiếp tục đánh giá cao Matthew vì sự tự nhiên và chất lượng âm thanh chuyên nghiệp của anh ấy, giọng nói cho đến nay chỉ phục vụ riêng cho lưu lượng truy cập nói tiếng Anh. Giờ đây, bằng cách sử dụng các phương pháp học sâu, chúng tôi đã tách biệt ngôn ngữ và danh tính người nói, điều này cho phép chúng tôi duy trì sự trôi chảy như người bản xứ qua nhiều ngôn ngữ mà không cần phải lấy dữ liệu đa ngôn ngữ từ cùng một người nói. Trên thực tế, điều này có nghĩa là chúng tôi đã chuyển các đặc điểm giọng nói của giọng Anh Mỹ Matthew sang tiếng Anh Mỹ, tiếng Đức, tiếng Pháp Canada và tiếng Anh Anh, mở ra cơ hội mới cho khách hàng của Amazon Polly.

Có một giọng nói giống nhau ở năm ngôn ngữ sẽ mở ra tiềm năng to lớn cho sự phát triển kinh doanh. Trước hết, khách hàng có phạm vi toàn cầu có thể tạo ra trải nghiệm người dùng nhất quán giữa các ngôn ngữ và khu vực. Ví dụ: hệ thống phản hồi bằng giọng nói tương tác (IVR) hỗ trợ nhiều ngôn ngữ hiện có thể phục vụ các phân khúc khách hàng khác nhau mà không làm thay đổi cảm nhận về thương hiệu. Điều tương tự cũng xảy ra đối với tất cả các trường hợp sử dụng TTS khác, chẳng hạn như lồng tiếng cho các bài báo, tài liệu giáo dục hoặc podcast.

Thứ hai, giọng nói phù hợp với khách hàng của Amazon Polly, những người đang tìm kiếm cách phát âm bản ngữ của các cụm từ nước ngoài bằng bất kỳ ngôn ngữ nào trong số năm ngôn ngữ được hỗ trợ.

Thứ ba, việc phát hành Pedro, Daniel, Liam và Arthur phục vụ khách hàng của chúng tôi, những người thích Amazon Polly NTTS bằng tiếng Tây Ban Nha, tiếng Đức, tiếng Pháp Canada và tiếng Anh Anh nhưng đang tìm kiếm một giọng nam tính chất lượng cao — họ có thể sử dụng những giọng nói này để tạo âm thanh cho nội dung đơn ngữ và mong đợi chất lượng hàng đầu ngang bằng với các giọng nói NTTS khác bằng các ngôn ngữ này.

Cuối cùng, công nghệ chúng tôi đã phát triển để tạo ra giọng nam NTTS mới cũng có thể được sử dụng cho Tiếng nói thương hiệu. Nhờ đó, khách hàng của Brand Voice không chỉ có thể thưởng thức giọng nói NTTS độc đáo phù hợp với thương hiệu của họ mà còn giữ được trải nghiệm nhất quán khi phục vụ khán giả quốc tế.

Trường hợp sử dụng ví dụ

Hãy cùng khám phá một trường hợp sử dụng ví dụ để chứng minh điều này có nghĩa là gì trong thực tế. Những khách hàng quen thuộc với Matthew của Amazon Polly vẫn có thể sử dụng giọng nói này theo cách thông thường bằng cách chọn Matthew trên bảng điều khiển Amazon Polly và nhập bất kỳ văn bản nào họ muốn nghe bằng tiếng Anh Mỹ. Trong tình huống sau, chúng tôi tạo các mẫu âm thanh cho hệ thống IVR (“Đối với tiếng Anh, vui lòng nhấn một nút”):

Nhờ bản phát hành này, giờ đây bạn có thể mở rộng trường hợp sử dụng để mang lại trải nghiệm âm thanh nhất quán bằng các ngôn ngữ khác nhau. Tất cả các giọng nói mới đều có âm thanh tự nhiên và duy trì giọng giống bản xứ.

  • Để tạo giọng nói bằng tiếng Anh Anh, hãy chọn Arthur (“Đối với tiếng Anh, vui lòng nhấn một phím”):
  • Để sử dụng một người nói tiếng Tây Ban Nha ở Hoa Kỳ, hãy chọn Pedro (“Para español, por favoured marque dos”):
  • Daniel cung cấp hỗ trợ bằng tiếng Đức (“Für Deutsch drücken Sie bitte die Drei”):
  • Bạn có thể tổng hợp văn bản bằng tiếng Pháp Canada bằng cách chọn Liam (“Pour le français, veuillez appuyer sur le quatre”):

Lưu ý rằng ngoài việc nói với một giọng khác, giọng Anh Arthur của Anh sẽ bản địa hóa văn bản đầu vào khác với giọng Matthew của Anh Mỹ. Ví dụ: “1/2/22” sẽ được Arthur đọc là “ngày 1 tháng 2022 năm 2”, trong khi Matthew sẽ đọc là “ngày 2022 tháng XNUMX năm XNUMX”.

Bây giờ hãy kết hợp những lời nhắc này:

Kết luận

Pedro, Daniel, Liam và Arthur chỉ có sẵn dưới dạng giọng nói Neural TTS, vì vậy để thưởng thức chúng, bạn cần sử dụng Neural engine ở một trong các Các khu vực AWS hỗ trợ NTTS. Đây là những chất lượng cao giọng nói đơn ngữ bằng ngôn ngữ đích của họ. Thực tế là tính cách của họ nhất quán giữa các ngôn ngữ là một lợi ích bổ sung, mà chúng tôi hy vọng sẽ làm hài lòng những khách hàng làm việc với nội dung bằng nhiều ngôn ngữ. Để biết thêm chi tiết, hãy xem lại danh sách đầy đủ của chúng tôi về Amazon Polly giọng nói chuyển văn bản thành giọng nói , Định giá TTS thần kinh, giới hạn dịch vụCâu Hỏi Thường Gặpvà ghé thăm của chúng tôi trang giá.


Về các tác giả

Patryk Wainaina là một Kỹ sư ngôn ngữ làm việc về chuyển văn bản thành giọng nói cho tiếng Anh, tiếng Đức và tiếng Tây Ban Nha. Với kiến ​​thức nền tảng về xử lý giọng nói và ngôn ngữ, sở thích của anh ấy là học máy được áp dụng cho các giải pháp TTS front-end, đặc biệt là trong các cài đặt ít tài nguyên. Khi rảnh rỗi, anh ấy thích nghe nhạc điện tử và học ngôn ngữ mới.

Marta Smolarek là Giám đốc chương trình cấp cao trong nhóm Chuyển văn bản thành giọng nói của Amazon, nơi cô ấy tập trung vào trường hợp sử dụng TTS của Contact Center. Cô ấy xác định các sáng kiến ​​Tiếp cận thị trường, sử dụng phản hồi của khách hàng để xây dựng lộ trình sản phẩm và điều phối việc ra mắt TTS bằng giọng nói. Ngoài giờ làm việc, cô ấy rất thích đi cắm trại cùng gia đình.

tại chỗ_img

Tin tức mới nhất

tại chỗ_img