Logo Zephyrnet

Trợ lý cuộc họp trực tiếp với Amazon Transcribe, Amazon Bedrock và Cơ sở kiến ​​thức cho Amazon Bedrock | Dịch vụ web của Amazon

Ngày:

Xem THAY ĐỔI để biết các tính năng và bản sửa lỗi mới nhất.

Bạn có thể đã từng gặp khó khăn trong việc ghi chép trong cuộc họp trong khi cố gắng tập trung vào cuộc trò chuyện. Có lẽ bạn cũng đã trải qua nhu cầu nhanh chóng kiểm tra tính xác thực của điều gì đó đã được nói hoặc tra cứu thông tin để trả lời câu hỏi vừa được hỏi trong cuộc gọi. Hoặc có thể bạn có một thành viên trong nhóm luôn tham gia các cuộc họp muộn và mong bạn gửi cho họ một bản tóm tắt nhanh qua trò chuyện để cập nhật cho họ.

Sau đó, đôi khi người khác đang nói bằng ngôn ngữ không phải là ngôn ngữ đầu tiên của bạn và bạn muốn có bản dịch trực tiếp những gì mọi người đang nói để đảm bảo bạn hiểu chính xác.

Và sau khi cuộc gọi kết thúc, bạn thường muốn ghi lại một bản tóm tắt để lưu vào hồ sơ của mình hoặc gửi cho những người tham gia cùng với danh sách tất cả các mục hành động, chủ sở hữu và ngày đến hạn.

Tất cả những điều này và hơn thế nữa giờ đây đều có thể thực hiện được nhờ giải pháp mẫu mới nhất của chúng tôi, Trợ lý cuộc họp trực tiếp (LMA).

Hãy xem bản demo sau để biết nó hoạt động như thế nào.

Trong bài đăng này, chúng tôi hướng dẫn bạn cách sử dụng LMA với Phiên âm Amazon, nền tảng AmazonCơ sở kiến ​​thức về Amazon Bedrock.

Tổng quan về giải pháp

Giải pháp mẫu LMA ghi lại siêu dữ liệu và âm thanh của người nói từ ứng dụng cuộc họp dựa trên trình duyệt của bạn (tại thời điểm viết bài này, Zoom và Chime được hỗ trợ) hoặc chỉ âm thanh từ bất kỳ ứng dụng cuộc họp, điện thoại phần mềm hoặc nguồn âm thanh nào khác dựa trên trình duyệt. Nó sử dụng Amazon Transcribe để chuyển lời nói thành văn bản, Cơ sở kiến ​​thức cho Amazon Bedrock cho các truy vấn theo ngữ cảnh đối với tài liệu và nguồn kiến ​​thức của công ty bạn, cũng như các mô hình Amazon Bedrock để có thông tin chi tiết và tóm tắt về phiên âm có thể tùy chỉnh.

Mọi thứ bạn cần đều được cung cấp dưới dạng nguồn mở trong Repo GitHub. Việc triển khai trong tài khoản AWS của bạn thật đơn giản. Khi bạn hoàn tất, bạn sẽ tự hỏi làm thế nào bạn có thể xoay sở mà không có nó!

Sau đây là một số điều LMA có thể làm:

  • Phiên âm trực tiếp có ghi nhận tác giả của người nói – LMA được hỗ trợ bởi các mô hình ASR của Amazon Transcribe để chuyển lời nói thành văn bản có độ trễ thấp, độ chính xác cao. Bạn có thể dạy nó về tên thương hiệu và thuật ngữ dành riêng cho miền nếu cần, bằng cách sử dụng các tính năng mô hình ngôn ngữ và từ vựng tùy chỉnh trong Amazon Transcribe.
  • Bản dịch trực tiếp – Nó sử dụng Amazon Translate để tùy chọn hiển thị từng phân đoạn của cuộc trò chuyện được dịch sang ngôn ngữ bạn chọn, từ tuyển tập 75 ngôn ngữ.
  • Trợ lý cuộc họp nhận biết ngữ cảnh – Nó sử dụng Cơ sở Kiến thức cho Amazon Bedrock để cung cấp câu trả lời từ các nguồn đáng tin cậy của bạn, sử dụng bản ghi trực tiếp làm bối cảnh cho các câu hỏi tiếp theo và kiểm tra thực tế. Để kích hoạt trợ lý, chỉ cần nói “Được rồi, Trợ lý”, chọn HỎI TRỢ LÝ! hoặc nhập câu hỏi của riêng bạn trong giao diện người dùng.
  • Tóm tắt theo yêu cầu của cuộc họp – Chỉ cần nhấp vào nút trên giao diện người dùng, bạn có thể tạo bản tóm tắt, điều này rất hữu ích khi ai đó tham gia muộn và cần theo kịp. Các bản tóm tắt được tạo ra từ bản ghi của Amazon Bedrock. LMA cũng cung cấp các tùy chọn để xác định chủ đề cuộc họp hiện tại và tạo danh sách các mục hành động với chủ sở hữu và ngày đến hạn. Bạn cũng có thể tạo lời nhắc tùy chỉnh của riêng mình và các tùy chọn tương ứng.
  • Tóm tắt và hiểu biết tự động – Khi cuộc họp kết thúc, LMA tự động chạy một tập hợp lời nhắc mô hình ngôn ngữ lớn (LLM) trên Amazon Bedrock để tóm tắt bản ghi cuộc họp và trích xuất thông tin chi tiết. Bạn cũng có thể tùy chỉnh những lời nhắc này.
  • Ghi âm cuộc họp – Âm thanh được lưu trữ (tùy chọn) cho bạn để bạn có thể phát lại các phần quan trọng trong cuộc họp sau này.
  • Danh sách kiểm kê các cuộc họp – LMA theo dõi tất cả các cuộc họp của bạn trong danh sách có thể tìm kiếm được.
  • Tiện ích mở rộng trình duyệt ghi lại siêu dữ liệu âm thanh và cuộc họp từ các ứng dụng cuộc họp phổ biến – Tiện ích mở rộng trình duyệt ghi lại siêu dữ liệu cuộc họp—tiêu đề cuộc họp và tên của những người phát biểu hiện hoạt—và âm thanh từ bạn (micrô của bạn) và những người khác (từ tab trình duyệt cuộc họp). Tại thời điểm viết bài này, LMA hỗ trợ Chrome cho tiện ích mở rộng trình duyệt cũng như Zoom và Chime cho các ứng dụng cuộc họp (sắp có Teams và WebEx). Các ứng dụng cuộc họp độc lập không hoạt động với LMA—thay vào đó, hãy khởi chạy cuộc họp của bạn trong trình duyệt.

Bạn có trách nhiệm tuân thủ các hạn chế về mặt pháp lý, doanh nghiệp và đạo đức áp dụng cho việc ghi âm cuộc họp và cuộc gọi. Không sử dụng giải pháp này để truyền phát, ghi âm hoặc chép lời cuộc gọi nếu bị cấm.

Điều kiện tiên quyết

Bạn cần có tài khoản AWS và Quản lý truy cập và nhận dạng AWS (IAM) và người dùng có quyền tạo và quản lý các tài nguyên cũng như thành phần cần thiết cho ứng dụng này. Nếu bạn không có tài khoản AWS, hãy xem Làm cách nào để tạo và kích hoạt tài khoản Amazon Web Services mới?

Bạn cũng cần có nền tảng kiến ​​thức hiện có trong Amazon Bedrock. Nếu bạn chưa thiết lập, hãy xem Tạo cơ sở kiến ​​thức. Cung cấp nội dung cơ sở kiến ​​thức của bạn để hỗ trợ trợ lý cuộc họp nhận biết ngữ cảnh của LMA.

Cuối cùng, LMA sử dụng LLM của Amazon Bedrock cho các tính năng tóm tắt cuộc họp. Trước khi tiếp tục, nếu trước đây bạn chưa làm như vậy, bạn phải yêu cầu truy cập đến các mô hình Amazon Bedrock sau:

  • Titan Nhúng G1 – Văn Bản
  • Nhân loại: Tất cả các mô hình Claude

Triển khai giải pháp bằng AWS CloudFormation

Chúng tôi đã cung cấp bản dựng sẵn Hình thành đám mây AWS các mẫu triển khai mọi thứ bạn cần trong tài khoản AWS của mình.

Nếu bạn là nhà phát triển và muốn xây dựng, triển khai hoặc xuất bản giải pháp từ mã, hãy tham khảo Nhà phát triển README.

Hoàn thành các bước sau để khởi chạy ngăn xếp CloudFormation:

  1. Đăng nhập vào Bảng điều khiển quản lý AWS.
  2. Chọn Khởi chạy Stack để Khu vực AWS mong muốn của bạn mở bảng điều khiển AWS CloudFormation và tạo ngăn xếp mới.
Khu vực Khởi chạy Stack
Đông Mỹ (N. Virginia)
Tây Mỹ (Oregon)
  1. Trong Tên ngăn xếp, hãy sử dụng giá trị mặc định, LMA.
  2. Trong Địa chỉ email của quản trị viên, hãy sử dụng địa chỉ email hợp lệ—mật khẩu tạm thời của bạn sẽ được gửi qua email đến địa chỉ này trong quá trình triển khai.
  3. Trong Tên miền email tài khoản được ủy quyền, hãy sử dụng phần tên miền trong địa chỉ email công ty của bạn để cho phép người dùng có địa chỉ email trong cùng một miền tạo tài khoản giao diện người dùng mới của riêng họ hoặc để trống để ngăn người dùng trực tiếp tạo tài khoản của riêng họ. Bạn có thể nhập nhiều tên miền dưới dạng danh sách được phân tách bằng dấu phẩy.
  4. Trong Dịch vụ hỗ trợ cuộc họp, chọn BEDROCK_KNOWLEDGE_BASE (tùy chọn khả dụng duy nhất tính đến thời điểm viết bài này).
  5. Trong Id cơ sở kiến ​​thức Bedrock hỗ trợ cuộc họp (hiện tại), hãy nhập ID cơ sở kiến ​​thức hiện có của bạn (ví dụ: JSXXXXX3D8). Bạn có thể sao chép nó từ bảng điều khiển Amazon Bedrock.
  6. Đối với tất cả các tham số khác, hãy sử dụng các giá trị mặc định.

Nếu bạn muốn tùy chỉnh các cài đặt sau này, ví dụ như thêm cài đặt của riêng bạn AWS Lambda các chức năng, sử dụng từ vựng và mô hình ngôn ngữ tùy chỉnh để cải thiện độ chính xác, cho phép biên tập thông tin nhận dạng cá nhân (PII), v.v., bạn có thể cập nhật ngăn xếp cho các tham số này.

  1. Chọn hộp kiểm xác nhận, sau đó chọn Tạo ngăn xếp.

Ngăn xếp CloudFormation chính sử dụng các ngăn xếp lồng nhau để tạo các tài nguyên sau trong tài khoản AWS của bạn:

Các ngăn xếp mất khoảng 35–40 phút để triển khai. Trạng thái ngăn xếp chính hiển thị TẠO_COMPLETE khi mọi thứ được triển khai.

Đặt mật khẩu của bạn

Sau khi bạn triển khai ngăn xếp, hãy mở giao diện người dùng web LMA và đặt mật khẩu của bạn bằng cách hoàn thành các bước sau:

  1. Mở email bạn nhận được, theo địa chỉ email bạn đã cung cấp, với tiêu đề “Chào mừng bạn đến với Trợ lý cuộc họp trực tiếp!”
  2. Mở trình duyệt web của bạn tới URL hiển thị trong email. Bạn được chuyển đến trang đăng nhập.
  3. Email chứa mật khẩu tạm thời được tạo mà bạn sử dụng để đăng nhập và tạo mật khẩu của riêng mình. Tên người dùng của bạn là địa chỉ email của bạn.
  4. Đặt mật khẩu mới.

Mật khẩu mới của bạn phải có độ dài ít nhất tám ký tự và chứa các ký tự viết hoa và viết thường, cộng với số và ký tự đặc biệt.

  1. Làm theo hướng dẫn để xác minh địa chỉ email của bạn hoặc chọn Bỏ qua để làm điều đó sau này.

Bây giờ bạn đã đăng nhập vào LMA.

Bạn cũng nhận được một email tương tự với chủ đề “Mã xác minh đăng ký QnABot”. Email này chứa mật khẩu tạm thời được tạo mà bạn sử dụng để đăng nhập và tạo mật khẩu của riêng mình trong trình thiết kế QnABot. Bạn chỉ sử dụng trình thiết kế QnABot nếu muốn tùy chỉnh các tùy chọn và lời nhắc LMA. Tên người dùng QnABot của bạn là Quản trị viên. Bạn có thể đặt mật khẩu Quản trị viên QnABot vĩnh viễn của mình ngay bây giờ hoặc giữ email này an toàn trong trường hợp bạn muốn tùy chỉnh mọi thứ sau này.

Tải xuống và cài đặt tiện ích mở rộng của trình duyệt Chrome

Để có trải nghiệm phát trực tiếp cuộc họp tốt nhất, hãy cài đặt plugin trình duyệt LMA (hiện có sẵn cho Chrome):

  1. Chọn Tải xuống tiện ích mở rộng của Chrome để tải xuống tệp .zip mở rộng của trình duyệt (lma-chrome-extension.zip).
  2. Chọn (nhấp chuột phải) và mở rộng tệp .zip (lma-chrome-extension.zip) để tạo một thư mục cục bộ có tên lma-chrome-extension.
  3. Mở Chrome và nhập liên kết chrome://extensions vào thanh địa chỉ.
  4. Kích hoạt tính năng Chế độ nhà phát triển.
  5. Chọn Tải giải nén, điều hướng đến lma-chrome-extension thư mục (mà bạn đã giải nén từ bản tải xuống) và chọn Chọn. Điều này tải phần mở rộng của bạn.
  6. Ghim tiện ích mở rộng LMA mới vào thanh công cụ trình duyệt để dễ dàng truy cập—bạn sẽ sử dụng tiện ích này thường xuyên để phát trực tuyến các cuộc họp của mình!

Bắt đầu sử dụng LMA

LMA cung cấp hai tùy chọn phát trực tuyến:

  • Tiện ích mở rộng trình duyệt Chrome – Sử dụng tính năng này để truyền siêu dữ liệu âm thanh và loa từ ứng dụng trình duyệt cuộc họp của bạn. Nó hiện hoạt động với Zoom và Chime, nhưng chúng tôi hy vọng sẽ bổ sung thêm nhiều ứng dụng họp hơn.
  • Tab âm thanh dòng LMA – Sử dụng tính năng này để truyền phát âm thanh từ micrô của bạn và mọi ứng dụng cuộc họp, phần mềm điện thoại hoặc ứng dụng âm thanh dựa trên trình duyệt Chrome.

Chúng tôi chỉ cho bạn cách sử dụng cả hai tùy chọn trong các phần sau.

Sử dụng tiện ích mở rộng của trình duyệt Chrome để truyền phát cuộc gọi Zoom

Hoàn thành các bước sau để sử dụng tiện ích mở rộng của trình duyệt:

  1. Mở tiện ích mở rộng LMA và đăng nhập bằng thông tin đăng nhập LMA của bạn.
  2. Tham gia hoặc bắt đầu cuộc họp Zoom trong trình duyệt web của bạn (không sử dụng ứng dụng khách Zoom riêng).

Nếu bạn đã tải trang cuộc họp Zoom, hãy tải lại.

Tiện ích mở rộng LMA tự động phát hiện rằng Zoom đang chạy trong tab trình duyệt và điền tên của bạn cũng như tên cuộc họp.

  1. Thông báo cho những người khác trong cuộc gọi rằng bạn sắp bắt đầu ghi âm cuộc gọi bằng LMA và xin phép họ. Không tiếp tục nếu người tham gia phản đối.
  2. Chọn Bắt đầu nghe.
  3. Đọc và chấp nhận tuyên bố từ chối trách nhiệm và chọn Cho phép để chia sẻ tab trình duyệt.

Tiện ích mở rộng LMA tự động phát hiện và hiển thị người đang hoạt động trong cuộc gọi. Nếu bạn ở một mình trong cuộc họp, hãy mời một số người bạn tham gia và quan sát rằng tên họ từng tham gia cuộc gọi sẽ được hiển thị trong tiện ích mở rộng khi họ nói và được gán cho lời nói của họ trong bản ghi LMA.

  1. Chọn Mở ở LMA để xem bản ghi trực tiếp của bạn trong tab mới.
  2. Chọn ngôn ngữ ghi âm ưa thích của bạn và tương tác với trợ lý cuộc họp bằng cụm từ đánh thức “OK Assistant!” hoặc là Bot hỗ trợ cuộc họp cửa sổ.

Sản phẩm HỎI TRỢ LÝ nút yêu cầu dịch vụ trợ lý cuộc họp (cơ sở kiến ​​thức của Amazon Bedrock) đề xuất phản hồi tốt dựa trên bản ghi của các tương tác gần đây trong cuộc họp. Số dặm của bạn có thể thay đổi, vì vậy hãy thử nghiệm!

  1. Khi bạn hoàn tất, hãy chọn Dừng phát trực tuyến để kết thúc cuộc họp ở LMA.

Trong vòng vài giây, bản tóm tắt cuối cuộc họp tự động sẽ xuất hiện và bản ghi âm sẽ có sẵn. Bạn có thể tiếp tục sử dụng bot sau khi cuộc gọi kết thúc.

Sử dụng tab LMA UI Stream Audio để truyền phát từ micrô của bạn và bất kỳ ứng dụng âm thanh dựa trên trình duyệt nào

Tiện ích mở rộng trình duyệt là cách thuận tiện nhất để truyền siêu dữ liệu và âm thanh từ các ứng dụng web cuộc họp được hỗ trợ. Tuy nhiên, bạn cũng có thể sử dụng LMA để chỉ truyền phát âm thanh từ bất kỳ phần mềm điện thoại, ứng dụng cuộc họp hoặc nguồn âm thanh nào khác chạy trên trình duyệt đang phát trong trình duyệt Chrome của bạn bằng cách sử dụng tiện ích Truyền âm thanh tab được tích hợp vào giao diện người dùng LMA.

  1. Mở bất kỳ nguồn âm thanh nào trong tab trình duyệt.

Ví dụ: đây có thể là một softphone (chẳng hạn như Google Voice), một ứng dụng cuộc họp khác hoặc vì mục đích demo, bạn chỉ cần phát bản ghi âm cục bộ hoặc video YouTube trong trình duyệt của mình để mô phỏng một người tham gia cuộc họp khác. Nếu bạn chỉ muốn thử nó, hãy mở phần sau YouTube video trong một tab mới.

  1. Trong giao diện người dùng ứng dụng LMA, chọn Truyền phát âm thanh (không có phần mở rộng) để mở tab Truyền phát âm thanh.
  2. Trong ID cuộc họp, hãy nhập ID cuộc họp.
  3. Trong Họ tên, nhập tên cho chính bạn (áp dụng cho âm thanh từ micrô của bạn).
  4. Trong Tên người tham gia, nhập tên của những người tham gia (áp dụng cho nguồn âm thanh đến).
  5. Chọn Bắt đầu phát trực tuyến.
  6. Chọn tab trình duyệt bạn đã mở trước đó và chọn Cho phép để chia sẻ.
  7. Chọn lại tab LMA UI để xem ID cuộc họp mới của bạn được liệt kê, hiển thị cuộc họp dưới dạng Đang diễn ra.
  8. Chọn ID cuộc họp để mở trang chi tiết và xem bản ghi của âm thanh đến, được gán cho tên người tham gia mà bạn đã nhập. Nếu bạn nói, bạn sẽ thấy bản ghi âm giọng nói của chính mình.

Sử dụng Truyền âm thanh tính năng phát trực tiếp từ bất kỳ ứng dụng điện thoại mềm, ứng dụng cuộc họp hoặc bất kỳ âm thanh phát trực tuyến nào khác đang phát trong trình duyệt, cùng với âm thanh của chính bạn được thu từ micrô đã chọn. Luôn xin phép người khác trước khi ghi chúng bằng LMA hoặc bất kỳ ứng dụng ghi nào khác.

Tổng quan về quy trình xử lý

LMA đã ghi lại và phân tích cuộc họp của bạn như thế nào? Hãy xem nó hoạt động như thế nào. Sơ đồ sau đây cho thấy các thành phần kiến ​​trúc chính và cách chúng khớp với nhau ở mức độ cao.

Người dùng LMA tham gia cuộc họp trong trình duyệt của họ, bật tiện ích mở rộng trình duyệt LMA và xác thực bằng thông tin xác thực LMA của họ. Nếu ứng dụng cuộc họp (ví dụ: Zoom.us) được tiện ích mở rộng LMA hỗ trợ thì tên người dùng, tên cuộc họp và tên người phát biểu đang hoạt động sẽ tự động được tiện ích mở rộng phát hiện. Nếu ứng dụng cuộc họp không được tiện ích mở rộng hỗ trợ thì người dùng LMA có thể nhập tên của họ và chủ đề cuộc họp theo cách thủ công—tên của những người phát biểu đang hoạt động sẽ không được phát hiện.

Sau khi nhận được sự cho phép từ những người tham gia khác, người dùng LMA chọn Bắt đầu nghe trên khung mở rộng LMA. Kết nối WebSocket an toàn được thiết lập với URL WebSocket ngăn xếp LMA được cấu hình sẵn và mã thông báo xác thực của người dùng được xác thực. Tiện ích mở rộng trình duyệt LMA gửi thông báo BẮT ĐẦU tới WebSocket chứa siêu dữ liệu cuộc họp (tên, chủ đề, v.v.) và bắt đầu truyền phát âm thanh hai kênh từ micrô của người dùng và kênh âm thanh đến chứa giọng nói của những người tham gia cuộc họp khác. Tiện ích mở rộng giám sát ứng dụng cuộc họp để phát hiện các thay đổi của người phát biểu đang diễn ra trong cuộc gọi và gửi siêu dữ liệu đó đến WebSocket, cho phép LMA gắn nhãn các đoạn giọng nói bằng tên của người phát biểu.

Máy chủ WebSocket chạy trong Fargate sử dụng các đoạn âm thanh hai kênh theo thời gian thực từ luồng WebSocket đến. Âm thanh được truyền trực tuyến tới Amazon Transcribe và kết quả phiên âm được ghi theo thời gian thực vào Kinesis Data Streams.

Mỗi phiên xử lý cuộc họp sẽ diễn ra cho đến khi người dùng chọn Dừng nghe trong ngăn tiện ích mở rộng LMA hoặc kết thúc cuộc họp và đóng tab. Khi kết thúc cuộc gọi, chức năng này sẽ tạo tệp ghi âm thanh nổi trong Amazon S3 (nếu tính năng ghi được bật khi ngăn xếp được triển khai).

Hàm Lambda được gọi là Bộ xử lý sự kiện cuộc gọi, được cung cấp bởi Kinesis Data Streams, xử lý và tùy ý làm phong phú thêm siêu dữ liệu cuộc họp và các phân đoạn phiên âm. Bộ xử lý sự kiện cuộc gọi tích hợp với các dịch vụ hỗ trợ cuộc họp. LMA được cung cấp bởi Amazon, Cơ sở kiến ​​thức cho Amazon Bedrock và Amazon Bedrock LLM sử dụng nguồn mở QnABot trên giải pháp AWS để có câu trả lời dựa trên Câu hỏi thường gặp và đóng vai trò là người điều phối định tuyến yêu cầu đến dịch vụ AI thích hợp. Bộ xử lý sự kiện cuộc gọi cũng gọi hàm Lambda Tóm tắt bản ghi khi cuộc gọi kết thúc để tạo bản tóm tắt cuộc gọi từ bản ghi đầy đủ.

Chức năng Bộ xử lý sự kiện cuộc gọi giao tiếp với AWS AppSync để duy trì các thay đổi (đột biến) trong Máy phát điện Amazon và gửi các bản cập nhật theo thời gian thực tới các máy khách web đã đăng nhập của người dùng LMA (được mở một cách thuận tiện bằng cách chọn tùy chọn Mở trong LMA trong tiện ích mở rộng của trình duyệt).

Nội dung giao diện người dùng web LMA được lưu trữ trên Amazon S3 và được phân phối qua CloudFront. Xác thực được cung cấp bởi Amazon Cognito.

Khi người dùng được xác thực, ứng dụng web sẽ thiết lập kết nối GraphQL an toàn với API AWS AppSync và đăng ký nhận các sự kiện theo thời gian thực như cuộc gọi mới và thay đổi trạng thái cuộc gọi cho trang danh sách cuộc họp cũng như các phân đoạn phiên âm mới hoặc được cập nhật và tính toán phân tích cho trang chi tiết cuộc họp. Khi tính năng dịch được bật, ứng dụng web cũng tương tác an toàn với Amazon Translate để dịch bản ghi cuộc họp sang ngôn ngữ đã chọn.

Toàn bộ quy trình xử lý, từ lời nói được nhập vào đến cập nhật trang web trực tiếp, đều được điều khiển theo sự kiện và độ trễ từ đầu đến cuối rất ngắn—thường chỉ vài giây.

Giám sát và xử lý sự cố

AWS CloudFormation báo cáo các lỗi triển khai và nguyên nhân trên ngăn xếp liên quan Sự Kiện chuyển hướng. Xem Khắc phục sự cố CloudFormation để được trợ giúp về các vấn đề triển khai thường gặp. Chú ý các lỗi triển khai do lỗi vượt quá giới hạn; ngăn xếp LMA tạo ra các tài nguyên tuân theo hạn ngạch dịch vụ Khu vực và tài khoản mặc định, chẳng hạn như địa chỉ IP linh hoạt và cổng NAT. Khi khắc phục sự cố lỗi ngăn xếp CloudFormation, hãy luôn điều hướng đến mọi ngăn xếp lồng nhau bị lỗi để tìm lỗi tài nguyên lồng nhau đầu tiên được báo cáo—điều này hầu như luôn là nguyên nhân cốt lõi.

Amazon Transcribe có giới hạn mặc định là 25 luồng phiên âm đồng thời, giới hạn LMA ở 25 cuộc họp đồng thời trong một tài khoản hoặc Khu vực AWS nhất định. Yêu cầu tăng số lượng luồng HTTP/2 đồng thời để chép lời trực tuyến nếu bạn có nhiều người dùng và cần xử lý số lượng cuộc họp đồng thời lớn hơn trong tài khoản của mình.

LMA cung cấp chức năng giám sát thời gian chạy và nhật ký cho từng thành phần bằng CloudWatch:

  • Xử lý và sao chép WebSocket Tác vụ Fargate – Trên Dịch vụ container đàn hồi Amazon (Amazon ECS), hãy điều hướng đến Cụm trang và mở LMA-WEBSOCKETSTACK-xxxx-TranscribingCluster chức năng. Chọn Nhiệm vụ tab và mở trang nhiệm vụ. Chọn LogsXem trong CloudWatch để kiểm tra nhật ký tác vụ của trình sao chép WebSocket.
  • Gọi hàm Lambda của Bộ xử lý sự kiện – Trên bảng điều khiển Lambda, hãy mở LMA-AISTACK-CallEventProcessor chức năng. Chọn Màn Hình để xem các chỉ số chức năng. Chọn Xem nhật ký trong CloudWatch để kiểm tra nhật ký chức năng.
  • API AWS AppSync – Trên bảng điều khiển AWS AppSync, hãy mở CallAnalytics-LMA API. Chọn Giám sát trong ngăn điều hướng để xem chỉ số API. Chọn Xem nhật ký trong CloudWatch để kiểm tra nhật ký API AWS AppSync.

Đối với QnABot trên AWS dành cho Hỗ trợ cuộc họp, hãy tham khảo Hỗ trợ cuộc họp README, và Hướng dẫn triển khai giải pháp QnABot để biết thêm thông tin.

Đánh giá chi phí

LMA cung cấp máy chủ WebSocket sử dụng tài nguyên mạng Fargate (2vCPU) và VPC với chi phí khoảng 0.10 USD/giờ (khoảng 72 USD/tháng). Để biết thêm chi tiết, xem Giá AWS Fargate.

LMA được kích hoạt bằng cách sử dụng QnABot và Cơ sở tri thức cho Amazon Bedrock. Bạn tạo cơ sở kiến ​​thức của riêng mình để sử dụng cho LMA và các trường hợp sử dụng tiềm năng khác. Để biết thêm chi tiết, xem Giá Amazon Bedrock. Các dịch vụ AWS bổ sung được giải pháp QnABot sử dụng có giá khoảng 0.77 USD/giờ. Để biết thêm chi tiết, hãy tham khảo danh sách QnABot về chi phí giải pháp AWS.

Chi phí giải pháp còn lại dựa trên mức sử dụng.

Tổng chi phí sử dụng lên tới khoảng 0.17 USD cho một cuộc gọi 5 phút, mặc dù chi phí này có thể thay đổi dựa trên các tùy chọn đã chọn (chẳng hạn như dịch thuật), số lượng tóm tắt LLM và tổng mức sử dụng vì mức sử dụng ảnh hưởng đến tính đủ điều kiện của Bậc miễn phí và mức giá theo bậc số lượng cho nhiều dịch vụ . Để biết thêm thông tin về các dịch vụ phát sinh chi phí sử dụng, hãy xem phần sau:

Để tự mình khám phá chi phí LMA, hãy sử dụng Trình khám phá chi phí AWS hoặc chọn Chi tiết hóa đơn trên Bảng thông tin thanh toán AWS để xem mức chi tiêu hàng tháng của bạn theo dịch vụ.

Tùy chỉnh triển khai của bạn

Sử dụng các tham số mẫu CloudFormation sau khi tạo hoặc cập nhật ngăn xếp để tùy chỉnh triển khai LCA của bạn:

  • Để sử dụng bộ chứa S3 của riêng bạn để ghi lại cuộc họp, hãy sử dụng Gọi Tên nhóm Bản ghi Âm thanhTiền tố tệp âm thanh.
  • Để sắp xếp lại PII từ bản chép lời, hãy đặt Bật biên tập nội dung cho bản ghi thành đúng và điều chỉnh Các loại thực thể biên tập PII phiên âm khi cần thiết. Để biết thêm thông tin, xem Sắp xếp lại hoặc xác định PII trong luồng thời gian thực.
  • Để cải thiện độ chính xác của phiên âm cho các từ viết tắt và biệt ngữ kỹ thuật và tên miền cụ thể, hãy đặt Tên từ vựng tùy chỉnh phiên âm vào tên của từ vựng tùy chỉnh mà bạn đã tạo trong Amazon Transcribe hoặc đặt Tên mô hình ngôn ngữ tùy chỉnh phiên âm theo tên của mô hình ngôn ngữ tùy chỉnh đã tạo trước đó. Để biết thêm thông tin, xem Cải thiện độ chính xác của phiên mã.
  • Để phiên âm cuộc họp bằng ngôn ngữ được hỗ trợ không phải tiếng Anh Mỹ, hãy chọn giá trị mong muốn cho Ngôn ngữ phiên âm.
  • Để tùy chỉnh quá trình xử lý bản ghi, hãy đặt tùy ý Chức năng móc Lambda ARN để xử lý phân đoạn bản ghi tùy chỉnh vào ARN của hàm Lambda của riêng bạn. Để biết thêm thông tin, xem Sử dụng hàm Lambda để cung cấp logic tùy chỉnh cho quá trình xử lý bản ghi.
  • Để tùy chỉnh khả năng hỗ trợ cuộc họp dựa trên giải pháp QnABot trên AWS, Amazon Lex, Amazon Bedrock và Cơ sở kiến ​​thức để tích hợp Amazon Bedrock, hãy xem phần Hỗ trợ cuộc họp README.
  • Để tùy chỉnh tóm tắt bản ghi bằng cách định cấu hình LMA để gọi hàm Lambda của riêng bạn, hãy xem Tùy chọn LAMBDA tóm tắt bản ghi.
  • Để tùy chỉnh tóm tắt bản ghi bằng cách sửa đổi lời nhắc mặc định hoặc thêm lời nhắc mới, hãy xem Tóm tắt bảng điểm.
  • Để thay đổi thời gian lưu giữ, hãy đặt Ghi lại ngày hết hạn đến giá trị mong muốn. Tất cả dữ liệu cuộc gọi sẽ bị xóa vĩnh viễn khỏi bộ lưu trữ LMA DynamoDB sau khoảng thời gian này. Những thay đổi đối với cài đặt này chỉ áp dụng cho các cuộc gọi mới nhận được sau khi cập nhật.

LMA là một dự án nguồn mở. Bạn có thể phân nhánh kho lưu trữ LMA GitHub, nâng cao mã và gửi cho chúng tôi các yêu cầu kéo để chúng tôi có thể kết hợp và chia sẻ những cải tiến của bạn!

Cập nhật ngăn xếp LMA hiện có

Bạn có thể cập nhật ngăn xếp LMA hiện có của mình lên bản phát hành mới nhất. Để biết thêm chi tiết, xem Cập nhật ngăn xếp hiện có.

Làm sạch

Chúc mừng! Bạn đã hoàn thành tất cả các bước để thiết lập giải pháp mẫu phân tích cuộc gọi trực tiếp bằng dịch vụ AWS.

Khi bạn thử nghiệm xong giải pháp mẫu này, hãy dọn sạch tài nguyên của bạn bằng cách sử dụng bảng điều khiển AWS CloudFormation để xóa ngăn xếp LMA mà bạn đã triển khai. Thao tác này sẽ xóa các tài nguyên được tạo bằng cách triển khai giải pháp. Các nhóm bản ghi S3, bảng DynamoDB và nhóm nhật ký CloudWatch được giữ lại sau khi xóa ngăn xếp để tránh xóa dữ liệu của bạn.

Phân tích cuộc gọi trực tiếp: Giải pháp đồng hành

Giải pháp đồng hành của chúng tôi, Phân tích cuộc gọi trực tiếp và hỗ trợ đại lý (LCA), cung cấp phiên âm và phân tích theo thời gian thực cho các trung tâm liên lạc (cuộc gọi điện thoại) thay vì các cuộc họp. Có nhiều điểm tương đồng—trên thực tế, LMA được xây dựng bằng cách sử dụng kiến ​​trúc và nhiều thành phần bắt nguồn từ LCA.

Kết luận

Giải pháp mẫu Trợ lý cuộc họp trực tiếp cung cấp cách tiếp cận linh hoạt, giàu tính năng và có thể tùy chỉnh để hỗ trợ cuộc họp trực tiếp nhằm cải thiện năng suất của bạn trong và sau cuộc họp. Nó sử dụng các dịch vụ Amazon AI/ML như Amazon Transcribe, Amazon Lex, Cơ sở kiến ​​thức cho Amazon Bedrock và Amazon Bedrock LLM để chép lời và trích xuất thông tin chi tiết theo thời gian thực từ âm thanh cuộc họp của bạn.

Ứng dụng LMA mẫu được cung cấp dưới dạng nguồn mở—hãy sử dụng nó làm điểm khởi đầu cho giải pháp của riêng bạn và giúp chúng tôi cải thiện giải pháp đó bằng cách đóng góp các bản sửa lỗi và tính năng quay lại thông qua các yêu cầu kéo GitHub. Duyệt đến Kho lưu trữ LMA GitHub để khám phá mã, chọn Đồng hồ đeo tay để được thông báo về các bản phát hành mới và kiểm tra README để cập nhật tài liệu mới nhất.

Để được hỗ trợ từ chuyên gia, Dịch vụ chuyên nghiệp của AWS và khác Đối tác AWS đang ở đây để giúp đỡ.

Chúng tôi rất muốn nghe từ bạn. Hãy cho chúng tôi biết suy nghĩ của bạn trong phần nhận xét hoặc sử dụng diễn đàn các vấn đề trong Kho lưu trữ LMA GitHub.


Giới thiệu về tác giả

Bob Strahan Bob Strahan là Kiến trúc sư giải pháp chính trong nhóm AWS Language AI Services.

Chris Lott là Kiến trúc sư giải pháp chính trong nhóm Dịch vụ ngôn ngữ AI của AWS. Ông có 20 năm kinh nghiệm phát triển phần mềm doanh nghiệp. Chris sống ở Sacramento, California và thích làm vườn, hàng không vũ trụ và đi du lịch khắp thế giới.

Babu Srinivasan là Chuyên gia cấp cao về dịch vụ SA – Ngôn ngữ AI trong tổ chức Chuyên gia toàn cầu tại AWS, với hơn 24 năm kinh nghiệm trong lĩnh vực CNTT và 6 năm qua tập trung vào Đám mây AWS. Anh ấy đam mê AI/ML. Ngoài công việc, anh ấy thích chế biến gỗ và giải trí cho bạn bè và gia đình (đôi khi là những người xa lạ) bằng trò ảo thuật bài tay.

Kishore Dhamodaran là Kiến trúc sư giải pháp cấp cao tại AWS.

Hình ảnh của Gillian ArmstrongChung Hân Đồng là Kiến trúc sư Giải pháp Người xây dựng. Cô ấy hào hứng về cách Đám mây đang mở ra cơ hội cho nhiều người hơn sử dụng công nghệ để giải quyết vấn đề và đặc biệt hào hứng về cách các công nghệ nhận thức, như AI đàm thoại, đang cho phép chúng ta tương tác với máy tính theo cách của con người hơn.

tại chỗ_img

Tin tức mới nhất

tại chỗ_img