Khám phá tính năng phát trực tuyến theo thời gian thực cho các ứng dụng AI sáng tạo | Dịch vụ web của Amazon

Các mô hình nền tảng (FM) là các mô hình máy học (ML) lớn được đào tạo trên nhiều bộ dữ liệu tổng quát và không được gắn nhãn. FM, như tên cho thấy, cung cấp nền tảng để xây dựng các ứng dụng hạ nguồn chuyên biệt hơn và có khả năng thích ứng độc đáo. Họ có thể thực hiện nhiều nhiệm vụ khác nhau, chẳng hạn như xử lý ngôn ngữ tự nhiên, phân loại hình ảnh, dự báo xu hướng, phân tích cảm xúc và trả lời câu hỏi. Quy mô và khả năng thích ứng cho mục đích chung này là điều làm cho FM khác biệt với các mô hình ML truyền thống. FM có tính đa phương thức; chúng hoạt động với các loại dữ liệu khác nhau như văn bản, video, âm thanh và hình ảnh. Mô hình ngôn ngữ lớn (LLM) là một loại FM và được đào tạo trước về lượng lớn dữ liệu văn bản và thường có các ứng dụng sử dụng như tạo văn bản, chatbot thông minh hoặc tóm tắt.

Truyền dữ liệu trực tuyến tạo điều kiện cho luồng thông tin đa dạng và cập nhật liên tục, nâng cao khả năng thích ứng của mô hình và tạo ra kết quả đầu ra chính xác hơn, phù hợp với ngữ cảnh hơn. Sự tích hợp năng động của dữ liệu phát trực tuyến này cho phép trí tuệ nhân tạo các ứng dụng để đáp ứng kịp thời với các điều kiện thay đổi, cải thiện khả năng thích ứng và hiệu suất tổng thể trong các nhiệm vụ khác nhau.

Để hiểu rõ hơn về điều này, hãy tưởng tượng một chatbot giúp khách du lịch đặt chuyến đi. Trong trường hợp này, chatbot cần quyền truy cập theo thời gian thực vào danh sách hàng không, trạng thái chuyến bay, danh sách khách sạn, thay đổi giá mới nhất, v.v. Dữ liệu này thường đến từ các bên thứ ba và nhà phát triển cần tìm cách nhập dữ liệu này và xử lý các thay đổi dữ liệu khi chúng xảy ra.

Xử lý hàng loạt không phù hợp nhất trong trường hợp này. Khi dữ liệu thay đổi nhanh chóng, việc xử lý dữ liệu theo đợt có thể khiến chatbot sử dụng dữ liệu cũ, cung cấp thông tin không chính xác cho khách hàng, ảnh hưởng đến trải nghiệm chung của khách hàng. Tuy nhiên, xử lý luồng có thể cho phép chatbot truy cập dữ liệu theo thời gian thực và thích ứng với những thay đổi về tình trạng sẵn có và giá cả, cung cấp hướng dẫn tốt nhất cho khách hàng và nâng cao trải nghiệm của khách hàng.

Một ví dụ khác là giải pháp giám sát và quan sát dựa trên AI, trong đó FM giám sát các số liệu nội bộ theo thời gian thực của hệ thống và đưa ra cảnh báo. Khi mô hình tìm thấy giá trị số liệu bất thường hoặc bất thường, nó sẽ ngay lập tức đưa ra cảnh báo và thông báo cho người vận hành. Tuy nhiên, giá trị của những dữ liệu quan trọng đó sẽ giảm đi đáng kể theo thời gian. Lý tưởng nhất là những thông báo này sẽ được nhận trong vòng vài giây hoặc thậm chí ngay khi nó đang diễn ra. Nếu người vận hành nhận được những thông báo này vài phút hoặc vài giờ sau khi chúng xảy ra thì thông tin chi tiết đó sẽ không thể thực hiện được và có khả năng mất giá trị. Bạn có thể tìm thấy các trường hợp sử dụng tương tự trong các ngành khác như bán lẻ, sản xuất ô tô, năng lượng và ngành tài chính.

Trong bài đăng này, chúng tôi thảo luận lý do tại sao truyền dữ liệu là một thành phần quan trọng của các ứng dụng AI tổng hợp do tính chất thời gian thực của nó. Chúng tôi thảo luận về giá trị của các dịch vụ truyền dữ liệu AWS như Truyền trực tuyến được quản lý của Amazon cho Apache Kafka (Amazon MSK), Luồng dữ liệu Amazon Kinesis, Dịch vụ được quản lý của Amazon dành cho Apache Flinkvà Amazon Kinesis Dữ liệu Firehose trong việc xây dựng các ứng dụng AI tổng quát.

Học trong ngữ cảnh

LLM được đào tạo với dữ liệu tại thời điểm và không có khả năng truy cập dữ liệu mới tại thời điểm suy luận. Khi dữ liệu mới xuất hiện, bạn sẽ phải liên tục tinh chỉnh hoặc đào tạo thêm mô hình. Đây không chỉ là một thao tác tốn kém mà còn rất hạn chế trong thực tế vì tốc độ tạo dữ liệu mới vượt xa tốc độ tinh chỉnh. Ngoài ra, LLM thiếu hiểu biết về ngữ cảnh và chỉ dựa vào dữ liệu đào tạo của họ, do đó dễ bị ảo giác. Điều này có nghĩa là họ có thể tạo ra một phản hồi trôi chảy, mạch lạc và có cú pháp nhưng thực tế lại không chính xác. Chúng cũng không có sự liên quan, tính cá nhân hóa và bối cảnh.

Tuy nhiên, LLM có khả năng học hỏi từ dữ liệu họ nhận được từ ngữ cảnh để phản hồi chính xác hơn mà không cần sửa đổi trọng số mô hình. Đây được gọi là học trong ngữ cảnhvà có thể được sử dụng để tạo ra câu trả lời được cá nhân hóa hoặc đưa ra phản hồi chính xác trong bối cảnh chính sách của tổ chức.

Ví dụ: trong chatbot, các sự kiện dữ liệu có thể liên quan đến danh sách chuyến bay và khách sạn hoặc thay đổi giá được cập nhật liên tục vào công cụ lưu trữ trực tuyến. Hơn nữa, các sự kiện dữ liệu được lọc, làm phong phú và chuyển đổi sang định dạng có thể sử dụng được bằng bộ xử lý luồng. Kết quả được cung cấp cho ứng dụng bằng cách truy vấn ảnh chụp nhanh mới nhất. Ảnh chụp nhanh liên tục cập nhật thông qua xử lý luồng; do đó, dữ liệu cập nhật được cung cấp trong bối cảnh lời nhắc của người dùng đối với mô hình. Điều này cho phép mô hình thích ứng với những thay đổi mới nhất về giá cả và tính sẵn có. Sơ đồ sau đây minh họa quy trình học tập theo ngữ cảnh cơ bản.

Một phương pháp học tập trong ngữ cảnh thường được sử dụng là sử dụng một kỹ thuật có tên là Tạo tăng cường truy xuất (RAG). Trong RAG, bạn cung cấp thông tin liên quan như chính sách liên quan nhất và hồ sơ khách hàng cùng với câu hỏi của người dùng cho lời nhắc. Bằng cách này, LLM tạo ra câu trả lời cho câu hỏi của người dùng bằng cách sử dụng thông tin bổ sung được cung cấp dưới dạng ngữ cảnh. Để tìm hiểu thêm về RAG, hãy tham khảo Trả lời câu hỏi bằng cách sử dụng Retrieval Augmented Generation với các mô hình nền tảng trong Amazon SageMaker JumpStart.

Ứng dụng Generative AI dựa trên RAG chỉ có thể tạo ra các phản hồi chung dựa trên dữ liệu đào tạo của nó và các tài liệu liên quan trong cơ sở kiến thức. Giải pháp này không hiệu quả khi dự kiến sẽ có phản hồi được cá nhân hóa gần như theo thời gian thực từ ứng dụng. Ví dụ: một chatbot du lịch dự kiến sẽ xem xét các lượt đặt chỗ hiện tại của người dùng, danh sách chuyến bay và khách sạn có sẵn, v.v. Hơn nữa, dữ liệu cá nhân có liên quan của khách hàng (thường được gọi là hồ sơ khách hàng thống nhất) thường có thể thay đổi. Nếu quy trình hàng loạt được sử dụng để cập nhật cơ sở dữ liệu hồ sơ người dùng của AI tổng hợp, khách hàng có thể nhận được phản hồi không hài lòng dựa trên dữ liệu cũ.

Trong bài đăng này, chúng tôi thảo luận về ứng dụng xử lý luồng để nâng cao giải pháp RAG được sử dụng để xây dựng các tác nhân trả lời câu hỏi với bối cảnh từ quyền truy cập thời gian thực đến hồ sơ khách hàng thống nhất và cơ sở kiến thức tổ chức.

Cập nhật hồ sơ khách hàng gần thời gian thực

Hồ sơ khách hàng thường được phân phối trên các kho dữ liệu trong một tổ chức. Để ứng dụng AI tổng hợp của bạn cung cấp hồ sơ khách hàng phù hợp, chính xác và cập nhật, điều quan trọng là phải xây dựng các đường dẫn dữ liệu truyền trực tuyến có thể thực hiện phân giải danh tính và tổng hợp hồ sơ trên các kho dữ liệu phân tán. Công việc phát trực tuyến liên tục nhập dữ liệu mới để đồng bộ hóa giữa các hệ thống và có thể thực hiện việc làm phong phú, chuyển đổi, nối và tổng hợp trên các khoảng thời gian hiệu quả hơn. Các sự kiện thu thập dữ liệu thay đổi (CDC) chứa thông tin về bản ghi nguồn, các bản cập nhật và siêu dữ liệu như thời gian, nguồn, phân loại (chèn, cập nhật hoặc xóa) và người khởi tạo thay đổi.

Sơ đồ sau đây minh họa một quy trình làm việc mẫu để nhập và xử lý phát trực tiếp CDC cho hồ sơ khách hàng hợp nhất.

Trong phần này, chúng tôi thảo luận về các thành phần chính của mẫu phát trực tuyến CDC cần thiết để hỗ trợ các ứng dụng AI tổng hợp dựa trên RAG.

Nhập trực tuyến CDC

Trình sao chép CDC là một quy trình thu thập các thay đổi dữ liệu từ hệ thống nguồn (thường bằng cách đọc nhật ký giao dịch hoặc nhật ký binlog) và ghi các sự kiện CDC theo đúng thứ tự chúng xảy ra trong luồng dữ liệu hoặc chủ đề truyền trực tuyến. Điều này liên quan đến việc chụp dựa trên nhật ký bằng các công cụ như Dịch vụ di chuyển cơ sở dữ liệu AWS (AWS DMS) hoặc các trình kết nối nguồn mở như Debezium cho kết nối Apache Kafka. Apache Kafka Connect là một phần của môi trường Apache Kafka, cho phép dữ liệu được nhập từ nhiều nguồn khác nhau và được gửi đến nhiều điểm đến khác nhau. Bạn có thể chạy trình kết nối Apache Kafka của mình trên Kết nối Amazon MSK trong vòng vài phút mà không phải lo lắng về cấu hình, thiết lập và vận hành cụm Apache Kafka. Bạn chỉ cần tải mã đã biên dịch của trình kết nối lên Dịch vụ lưu trữ đơn giản của Amazon (Amazon S3) và thiết lập trình kết nối với cấu hình cụ thể cho khối lượng công việc của bạn.

Ngoài ra còn có các phương pháp khác để nắm bắt các thay đổi dữ liệu. Ví dụ, Máy phát điện Amazon cung cấp một tính năng để truyền dữ liệu CDC tới Luồng Amazon DynamoDB hoặc Luồng dữ liệu Kinesis. Amazon S3 cung cấp trình kích hoạt để gọi một AWS Lambda hoạt động khi một tài liệu mới được lưu trữ.

Lưu trữ trực tuyến

Chức năng lưu trữ trực tuyến như một bộ đệm trung gian để lưu trữ các sự kiện CDC trước khi chúng được xử lý. Bộ lưu trữ phát trực tuyến cung cấp khả năng lưu trữ đáng tin cậy để truyền dữ liệu. Theo thiết kế, nó có tính sẵn sàng cao và có khả năng phục hồi trước các lỗi phần cứng hoặc nút và duy trì thứ tự của các sự kiện khi chúng được ghi. Bộ lưu trữ phát trực tuyến có thể lưu trữ các sự kiện dữ liệu vĩnh viễn hoặc trong một khoảng thời gian nhất định. Điều này cho phép bộ xử lý luồng đọc từ một phần của luồng nếu có lỗi hoặc cần xử lý lại. Kinesis Data Streams là dịch vụ truyền dữ liệu không có máy chủ giúp việc thu thập, xử lý và lưu trữ luồng dữ liệu trên quy mô lớn trở nên đơn giản. Amazon MSK là dịch vụ được quản lý toàn phần, có tính sẵn sàng cao và an toàn do AWS cung cấp để chạy Apache Kafka.

Xử lý luồng

Các hệ thống xử lý luồng phải được thiết kế song song để xử lý thông lượng dữ liệu cao. Họ nên phân vùng luồng đầu vào giữa nhiều tác vụ chạy trên nhiều nút điện toán. Các tác vụ phải có thể gửi kết quả của một thao tác này tới thao tác tiếp theo qua mạng, giúp xử lý dữ liệu song song trong khi thực hiện các thao tác như nối, lọc, làm giàu và tổng hợp. Các ứng dụng xử lý luồng sẽ có thể xử lý các sự kiện liên quan đến thời gian sự kiện đối với các trường hợp sử dụng trong đó các sự kiện có thể đến muộn hoặc tính toán chính xác dựa vào thời gian xảy ra sự kiện thay vì thời gian hệ thống. Để biết thêm thông tin, hãy tham khảo Khái niệm về thời gian: Thời gian sự kiện và thời gian xử lý.

Các quy trình truyền phát liên tục tạo ra kết quả dưới dạng các sự kiện dữ liệu cần được xuất ra hệ thống đích. Hệ thống đích có thể là bất kỳ hệ thống nào có thể tích hợp trực tiếp với quy trình hoặc thông qua bộ lưu trữ trực tuyến như một trung gian. Tùy thuộc vào khung bạn chọn để xử lý luồng, bạn sẽ có các tùy chọn khác nhau cho hệ thống đích tùy thuộc vào đầu nối sink có sẵn. Nếu quyết định ghi kết quả vào bộ lưu trữ phát trực tuyến trung gian, bạn có thể xây dựng một quy trình riêng để đọc các sự kiện và áp dụng các thay đổi cho hệ thống đích, chẳng hạn như chạy trình kết nối chìm Apache Kafka. Bất kể bạn chọn tùy chọn nào, dữ liệu CDC cần được xử lý thêm do tính chất của nó. Vì các sự kiện CDC mang thông tin về các bản cập nhật hoặc xóa nên điều quan trọng là chúng phải hợp nhất trong hệ thống đích theo đúng thứ tự. Nếu các thay đổi được áp dụng không đúng thứ tự, hệ thống đích sẽ không đồng bộ với nguồn của nó.

Apache Flash là một khung xử lý luồng mạnh mẽ được biết đến với độ trễ thấp và khả năng thông lượng cao. Nó hỗ trợ xử lý thời gian sự kiện, ngữ nghĩa xử lý chính xác một lần và khả năng chịu lỗi cao. Ngoài ra, nó còn cung cấp hỗ trợ riêng cho dữ liệu CDC thông qua cấu trúc đặc biệt được gọi là bảng động. Các bảng động mô phỏng các bảng cơ sở dữ liệu nguồn và cung cấp cách trình bày theo cột của dữ liệu truyền phát. Dữ liệu trong bảng động thay đổi theo mọi sự kiện được xử lý. Các bản ghi mới có thể được thêm vào, cập nhật hoặc xóa bất kỳ lúc nào. Các bảng động loại bỏ logic bổ sung mà bạn cần triển khai cho từng thao tác ghi (chèn, cập nhật, xóa) riêng biệt. Để biết thêm thông tin, hãy tham khảo Bảng động.

Với Dịch vụ được quản lý của Amazon dành cho Apache Flink, bạn có thể chạy các tác vụ Apache Flink và tích hợp với các dịch vụ AWS khác. Không có máy chủ và cụm để quản lý cũng như không có cơ sở hạ tầng điện toán và lưu trữ để thiết lập.

Keo AWS là dịch vụ trích xuất, chuyển đổi và tải (ETL) được quản lý toàn phần, nghĩa là AWS sẽ xử lý việc cung cấp, thay đổi quy mô và bảo trì cơ sở hạ tầng cho bạn. Mặc dù chủ yếu được biết đến với khả năng ETL, AWS Glue cũng có thể được sử dụng cho các ứng dụng phát trực tuyến Spark. AWS Glue có thể tương tác với các dịch vụ truyền dữ liệu như Kinesis Data Streams và Amazon MSK để xử lý và chuyển đổi dữ liệu CDC. AWS Glue cũng có thể tích hợp liền mạch với các dịch vụ AWS khác như Lambda, Chức năng bước AWSvà DynamoDB, cung cấp cho bạn một hệ sinh thái toàn diện để xây dựng và quản lý quy trình xử lý dữ liệu.

Hồ sơ khách hàng thống nhất

Để khắc phục sự thống nhất hồ sơ khách hàng trên nhiều hệ thống nguồn khác nhau đòi hỏi phải phát triển các đường truyền dữ liệu mạnh mẽ. Bạn cần các đường dẫn dữ liệu có thể mang và đồng bộ hóa tất cả các bản ghi vào một kho lưu trữ dữ liệu. Kho dữ liệu này cung cấp cho tổ chức của bạn chế độ xem hồ sơ khách hàng toàn diện cần thiết để đạt được hiệu quả hoạt động của các ứng dụng AI tổng hợp dựa trên RAG. Để xây dựng một kho dữ liệu như vậy, kho dữ liệu phi cấu trúc sẽ là tốt nhất.

Biểu đồ nhận dạng là một cấu trúc hữu ích để tạo hồ sơ khách hàng thống nhất vì nó hợp nhất và tích hợp dữ liệu khách hàng từ nhiều nguồn khác nhau, đảm bảo tính chính xác và chống trùng lặp dữ liệu, cung cấp thông tin cập nhật theo thời gian thực, kết nối thông tin chi tiết giữa các hệ thống, cho phép cá nhân hóa, nâng cao trải nghiệm của khách hàng và hỗ trợ tuân thủ quy định. Hồ sơ khách hàng hợp nhất này trao quyền cho ứng dụng AI tổng hợp để hiểu và tương tác với khách hàng một cách hiệu quả, đồng thời tuân thủ các quy định về quyền riêng tư dữ liệu, cuối cùng là nâng cao trải nghiệm của khách hàng và thúc đẩy tăng trưởng kinh doanh. Bạn có thể xây dựng giải pháp biểu đồ nhận dạng của mình bằng cách sử dụng Sao Hải vương Amazon, một dịch vụ cơ sở dữ liệu đồ thị được quản lý đầy đủ, nhanh chóng, đáng tin cậy.

AWS cung cấp một số dịch vụ lưu trữ NoSQL được quản lý và không có máy chủ khác dành cho các đối tượng khóa-giá trị phi cấu trúc. Tài liệu AmazonDB (với khả năng tương thích MongoDB) là một doanh nghiệp nhanh, có thể mở rộng, có tính sẵn sàng cao và được quản lý hoàn toàn cơ sở dữ liệu tài liệu dịch vụ hỗ trợ khối lượng công việc JSON gốc. DynamoDB là dịch vụ cơ sở dữ liệu NoSQL được quản lý toàn phần, cung cấp hiệu suất nhanh và có thể dự đoán được với khả năng mở rộng liền mạch.

Cập nhật cơ sở kiến thức tổ chức gần như theo thời gian thực

Tương tự như hồ sơ khách hàng, các kho kiến thức nội bộ như chính sách của công ty và tài liệu của tổ chức được lưu trữ trên các hệ thống lưu trữ. Đây thường là dữ liệu phi cấu trúc và được cập nhật theo kiểu không tăng dần. Việc sử dụng dữ liệu phi cấu trúc cho các ứng dụng AI có hiệu quả bằng cách sử dụng nhúng vectơ, đây là một kỹ thuật biểu diễn dữ liệu nhiều chiều như tệp văn bản, hình ảnh và tệp âm thanh dưới dạng số nhiều chiều.

AWS cung cấp một số dịch vụ động cơ vector, Chẳng hạn như Amazon OpenSearch Serverless, Amazon Kendravà Phiên bản tương thích với Amazon Aurora PostgreSQL với phần mở rộng pgvector để lưu trữ các vectơ nhúng. Các ứng dụng AI sáng tạo có thể nâng cao trải nghiệm người dùng bằng cách chuyển đổi lời nhắc của người dùng thành một vectơ và sử dụng nó để truy vấn công cụ vectơ nhằm truy xuất thông tin có liên quan theo ngữ cảnh. Sau đó, cả lời nhắc và dữ liệu vectơ được truy xuất sẽ được chuyển đến LLM để nhận được phản hồi chính xác và được cá nhân hóa hơn.

Sơ đồ sau minh họa một ví dụ về quy trình xử lý luồng để nhúng vectơ.

Nội dung cơ sở tri thức cần được chuyển đổi sang dạng nhúng vectơ trước khi được ghi vào kho dữ liệu vectơ. nền tảng Amazon or Amazon SageMaker có thể giúp bạn truy cập vào mô hình bạn chọn và hiển thị điểm cuối riêng tư cho chuyển đổi này. Hơn nữa, bạn có thể sử dụng các thư viện như LangChain để tích hợp với các điểm cuối này. Việc xây dựng quy trình hàng loạt có thể giúp bạn chuyển đổi nội dung cơ sở tri thức của mình thành dữ liệu vectơ và lưu trữ nó trong cơ sở dữ liệu vectơ ban đầu. Tuy nhiên, bạn cần dựa vào một khoảng thời gian để xử lý lại tài liệu nhằm đồng bộ hóa cơ sở dữ liệu vectơ với những thay đổi trong nội dung cơ sở tri thức của bạn. Với số lượng lớn tài liệu, quá trình này có thể không hiệu quả. Giữa các khoảng thời gian này, người dùng ứng dụng AI tổng quát của bạn sẽ nhận được câu trả lời theo nội dung cũ hoặc sẽ nhận được câu trả lời không chính xác do nội dung mới chưa được vector hóa.

Xử lý luồng là một giải pháp lý tưởng cho những thách thức này. Ban đầu, nó tạo ra các sự kiện theo tài liệu hiện có, đồng thời giám sát thêm hệ thống nguồn và tạo sự kiện thay đổi tài liệu ngay khi chúng xảy ra. Những sự kiện này có thể được lưu trữ trong bộ lưu trữ trực tuyến và chờ được xử lý bởi công việc phát trực tuyến. Công việc phát trực tuyến sẽ đọc các sự kiện này, tải nội dung của tài liệu và chuyển đổi nội dung thành một mảng các mã thông báo từ có liên quan. Mỗi mã thông báo tiếp tục chuyển đổi thành dữ liệu vectơ thông qua lệnh gọi API tới FM nhúng. Kết quả được gửi để lưu trữ vào bộ lưu trữ vectơ thông qua toán tử chìm.

Nếu đang sử dụng Amazon S3 để lưu trữ tài liệu, bạn có thể xây dựng kiến trúc nguồn sự kiện dựa trên trình kích hoạt thay đổi đối tượng S3 cho Lambda. Hàm Lambda có thể tạo một sự kiện ở định dạng mong muốn và ghi sự kiện đó vào bộ nhớ phát trực tuyến của bạn.

Bạn cũng có thể sử dụng Apache Flink để chạy như một công việc phát trực tuyến. Apache Flink cung cấp trình kết nối nguồn FileSystem gốc, có thể khám phá các tệp hiện có và đọc nội dung của chúng ban đầu. Sau đó, nó có thể liên tục giám sát hệ thống tệp của bạn để tìm các tệp mới và nắm bắt nội dung của chúng. Trình kết nối hỗ trợ đọc một tập hợp tệp từ các hệ thống tệp phân tán như Amazon S3 hoặc HDFS với định dạng văn bản thuần túy, Avro, CSV, Parquet, v.v. và tạo bản ghi phát trực tuyến. Là một dịch vụ được quản lý hoàn toàn, Dịch vụ được quản lý dành cho Apache Flink sẽ loại bỏ chi phí vận hành khi triển khai và duy trì các công việc Flink, cho phép bạn tập trung vào việc xây dựng và mở rộng quy mô các ứng dụng phát trực tuyến của mình. Với khả năng tích hợp liền mạch vào các dịch vụ phát trực tuyến AWS như Amazon MSK hoặc Kinesis Data Streams, nó cung cấp các tính năng như tự động thay đổi quy mô, bảo mật và khả năng phục hồi, cung cấp các ứng dụng Flink đáng tin cậy và hiệu quả để xử lý dữ liệu truyền phát theo thời gian thực.

Dựa trên tùy chọn DevOps của bạn, bạn có thể chọn giữa Kinesis Data Streams hoặc Amazon MSK để lưu trữ các bản ghi phát trực tuyến. Kinesis Data Streams đơn giản hóa sự phức tạp của việc xây dựng và quản lý các ứng dụng dữ liệu truyền phát tùy chỉnh, cho phép bạn tập trung vào việc thu thập thông tin chi tiết từ dữ liệu của mình thay vì bảo trì cơ sở hạ tầng. Khách hàng sử dụng Apache Kafka thường chọn Amazon MSK do tính đơn giản, khả năng mở rộng và độ tin cậy trong việc giám sát các cụm Apache Kafka trong môi trường AWS. Là một dịch vụ được quản lý toàn phần, Amazon MSK đảm nhận các hoạt động phức tạp liên quan đến việc triển khai và duy trì các cụm Apache Kafka, cho phép bạn tập trung vào việc xây dựng và mở rộng các ứng dụng phát trực tuyến của mình.

Vì việc tích hợp API RESTful phù hợp với bản chất của quy trình này nên bạn cần một khung hỗ trợ mẫu làm giàu trạng thái thông qua lệnh gọi API RESTful để theo dõi lỗi và thử lại yêu cầu không thành công. Apache Flink lại là một khung có thể thực hiện các hoạt động có trạng thái ở tốc độ trên bộ nhớ. Để hiểu những cách tốt nhất để thực hiện lệnh gọi API thông qua Apache Flink, hãy tham khảo Các mẫu làm giàu dữ liệu phát trực tuyến phổ biến trong Phân tích dữ liệu Amazon Kinesis cho Apache Flink.

Apache Flink cung cấp các trình kết nối chìm gốc để ghi dữ liệu vào kho dữ liệu vectơ như Amazon Aurora cho PostgreSQL với pgvector hoặc Dịch vụ Tìm kiếm Mở của Amazon với VectorDB. Ngoài ra, bạn có thể sắp xếp đầu ra của công việc Flink (dữ liệu được vectơ hóa) trong chủ đề MSK hoặc luồng dữ liệu Kinesis. Dịch vụ OpenSearch cung cấp hỗ trợ cho việc nhập tự nhiên từ luồng dữ liệu Kinesis hoặc chủ đề MSK. Để biết thêm thông tin, hãy tham khảo Giới thiệu Amazon MSK làm nguồn cho Amazon OpenSearch Ingestion và Đang tải dữ liệu phát trực tuyến từ Luồng dữ liệu Amazon Kinesis.

Phân tích phản hồi và tinh chỉnh

Điều quan trọng đối với các nhà quản lý vận hành dữ liệu và nhà phát triển AI/ML là phải hiểu rõ hơn về hiệu suất của ứng dụng AI tổng quát và FM đang sử dụng. Để đạt được điều đó, bạn cần xây dựng các quy trình dữ liệu tính toán dữ liệu chỉ báo hiệu suất chính (KPI) quan trọng dựa trên phản hồi của người dùng cũng như nhiều loại nhật ký và chỉ số ứng dụng. Thông tin này hữu ích cho các bên liên quan để có được cái nhìn sâu sắc theo thời gian thực về hiệu suất của FM, ứng dụng và sự hài lòng chung của người dùng về chất lượng hỗ trợ mà họ nhận được từ ứng dụng của bạn. Bạn cũng cần thu thập và lưu trữ lịch sử hội thoại để tinh chỉnh thêm FM của mình nhằm cải thiện khả năng thực hiện các tác vụ theo miền cụ thể của chúng.

Trường hợp sử dụng này rất phù hợp trong miền phân tích phát trực tuyến. Ứng dụng của bạn sẽ lưu trữ từng cuộc hội thoại trong bộ nhớ phát trực tuyến. Ứng dụng của bạn có thể nhắc người dùng về đánh giá của họ về độ chính xác của từng câu trả lời cũng như mức độ hài lòng chung của họ. Dữ liệu này có thể ở định dạng lựa chọn nhị phân hoặc văn bản dạng tự do. Dữ liệu này có thể được lưu trữ trong luồng dữ liệu Kinesis hoặc chủ đề MSK và được xử lý để tạo KPI theo thời gian thực. Bạn có thể sử dụng FM để phân tích cảm xúc của người dùng. FM có thể phân tích từng câu trả lời và chỉ định mức độ hài lòng của người dùng.

Kiến trúc của Apache Flink cho phép tổng hợp dữ liệu phức tạp qua các khoảng thời gian. Nó cũng cung cấp hỗ trợ truy vấn SQL qua luồng sự kiện dữ liệu. Do đó, bằng cách sử dụng Apache Flink, bạn có thể nhanh chóng phân tích thông tin đầu vào thô của người dùng và tạo KPI trong thời gian thực bằng cách viết các truy vấn SQL quen thuộc. Để biết thêm thông tin, hãy tham khảo API bảng & SQL.

Với Dịch vụ được quản lý của Amazon dành cho Apache Flink Studio, bạn có thể xây dựng và chạy các ứng dụng xử lý luồng Apache Flink bằng cách sử dụng SQL, Python và Scala tiêu chuẩn trong sổ ghi chép tương tác. Máy tính xách tay Studio được cung cấp bởi Apache Zeppelin và sử dụng Apache Flink làm công cụ xử lý luồng. Sổ ghi chép Studio kết hợp liền mạch các công nghệ này để giúp các nhà phát triển thuộc mọi bộ kỹ năng có thể truy cập được các phân tích nâng cao về luồng dữ liệu. Với sự hỗ trợ cho các hàm do người dùng xác định (UDF), Apache Flink cho phép xây dựng các toán tử tùy chỉnh để tích hợp với các tài nguyên bên ngoài như FM để thực hiện các tác vụ phức tạp như phân tích tình cảm. Bạn có thể sử dụng UDF để tính toán các số liệu khác nhau hoặc làm phong phú thêm dữ liệu thô phản hồi của người dùng với những thông tin chi tiết bổ sung như cảm tính của người dùng. Để tìm hiểu thêm về mẫu này, hãy tham khảo Chủ động giải quyết mối quan tâm của khách hàng trong thời gian thực với GenAI, Flink, Apache Kafka và Kinesis.

Với Dịch vụ được quản lý dành cho Apache Flink Studio, bạn có thể triển khai sổ ghi chép Studio của mình dưới dạng công việc phát trực tuyến chỉ bằng một cú nhấp chuột. Bạn có thể sử dụng các trình kết nối chìm gốc do Apache Flink cung cấp để gửi đầu ra đến bộ lưu trữ mà bạn chọn hoặc đưa nó vào luồng dữ liệu Kinesis hoặc chủ đề MSK. Amazon RedShift và Dịch vụ OpenSearch đều lý tưởng để lưu trữ dữ liệu phân tích. Cả hai công cụ đều cung cấp khả năng hỗ trợ nhập tự nhiên từ Kinesis Data Streams và Amazon MSK thông qua một đường dẫn truyền trực tuyến riêng tới hồ dữ liệu hoặc kho dữ liệu để phân tích.

Amazon Redshift sử dụng SQL để phân tích dữ liệu có cấu trúc và bán cấu trúc trên kho dữ liệu và hồ dữ liệu, sử dụng công nghệ học máy và phần cứng do AWS thiết kế để mang lại hiệu suất giá/giá tốt nhất trên quy mô lớn. Dịch vụ OpenSearch cung cấp khả năng trực quan hóa được hỗ trợ bởi Bảng thông tin OpenSearch và Kibana (phiên bản 1.5 đến 7.10).

Bạn có thể sử dụng kết quả phân tích đó kết hợp với dữ liệu nhắc nhở của người dùng để tinh chỉnh FM khi cần thiết. SageMaker là cách đơn giản nhất để tinh chỉnh FM của bạn. Việc sử dụng Amazon S3 với SageMaker mang đến khả năng tích hợp mạnh mẽ và liền mạch để tinh chỉnh mô hình của bạn. Amazon S3 đóng vai trò là giải pháp lưu trữ đối tượng bền bỉ và có thể mở rộng, cho phép lưu trữ và truy xuất đơn giản các tập dữ liệu lớn, dữ liệu huấn luyện và tạo phẩm mô hình. SageMaker là dịch vụ ML được quản lý toàn phần giúp đơn giản hóa toàn bộ vòng đời ML. Bằng cách sử dụng Amazon S3 làm phụ trợ lưu trữ cho SageMaker, bạn có thể hưởng lợi từ khả năng mở rộng, độ tin cậy và hiệu quả chi phí của Amazon S3, đồng thời tích hợp liền mạch với khả năng đào tạo và triển khai của SageMaker. Sự kết hợp này cho phép quản lý dữ liệu hiệu quả, tạo điều kiện phát triển mô hình hợp tác và đảm bảo rằng quy trình công việc ML được sắp xếp hợp lý và có thể mở rộng, cuối cùng là nâng cao tính linh hoạt và hiệu suất tổng thể của quy trình ML. Để biết thêm thông tin, hãy tham khảo Tinh chỉnh Falcon 7B và các LLM khác trên Amazon SageMaker bằng công cụ trang trí @remote.

Với trình kết nối chìm hệ thống tệp, các tác vụ Apache Flink có thể phân phối dữ liệu tới Amazon S3 ở định dạng mở (như JSON, Avro, Parquet, v.v.) dưới dạng đối tượng dữ liệu. Nếu bạn muốn quản lý hồ dữ liệu của mình bằng khung hồ dữ liệu giao dịch (chẳng hạn như Apache Hudi, Apache Iceberg hoặc Delta Lake), tất cả các khung này đều cung cấp trình kết nối tùy chỉnh cho Apache Flink. Để biết thêm chi tiết, hãy tham khảo Tạo đường ống dẫn nguồn sang dữ liệu có độ trễ thấp bằng cách sử dụng Amazon MSK Connect, Apache Flink và Apache Hudi.

Tổng kết

Đối với một ứng dụng AI tổng quát dựa trên mô hình RAG, bạn cần xem xét việc xây dựng hai hệ thống lưu trữ dữ liệu và bạn cần xây dựng các hoạt động dữ liệu để cập nhật chúng với tất cả các hệ thống nguồn. Các tác vụ hàng loạt truyền thống không đủ để xử lý kích thước và tính đa dạng của dữ liệu bạn cần để tích hợp với ứng dụng AI tổng quát của mình. Sự chậm trễ trong việc xử lý các thay đổi trong hệ thống nguồn dẫn đến phản hồi không chính xác và làm giảm hiệu quả của ứng dụng AI tổng hợp của bạn. Truyền dữ liệu cho phép bạn nhập dữ liệu từ nhiều cơ sở dữ liệu trên nhiều hệ thống khác nhau. Nó cũng cho phép bạn chuyển đổi, làm phong phú, kết hợp và tổng hợp dữ liệu trên nhiều nguồn một cách hiệu quả trong thời gian gần như thực. Truyền dữ liệu cung cấp kiến trúc dữ liệu đơn giản hóa để thu thập và chuyển đổi phản ứng hoặc nhận xét theo thời gian thực của người dùng về phản hồi của ứng dụng, giúp bạn phân phối và lưu trữ kết quả trong hồ dữ liệu để tinh chỉnh mô hình. Truyền dữ liệu cũng giúp bạn tối ưu hóa đường dẫn dữ liệu bằng cách chỉ xử lý các sự kiện thay đổi, cho phép bạn phản hồi các thay đổi dữ liệu nhanh chóng và hiệu quả hơn.

Tìm hiểu thêm về Dịch vụ truyền dữ liệu AWS và bắt đầu xây dựng giải pháp truyền dữ liệu của riêng bạn.

Về các tác giả

Ali Alemi là Kiến trúc sư giải pháp chuyên gia phát trực tuyến tại AWS. Ali tư vấn cho khách hàng AWS các phương pháp hay nhất về kiến trúc và giúp họ thiết kế hệ thống dữ liệu phân tích thời gian thực đáng tin cậy, an toàn, hiệu quả và tiết kiệm chi phí. Anh ấy làm việc lùi từ các trường hợp sử dụng của khách hàng và thiết kế các giải pháp dữ liệu để giải quyết các vấn đề kinh doanh của họ. Trước khi gia nhập AWS, Ali đã hỗ trợ một số khách hàng khu vực công và các đối tác tư vấn AWS trong hành trình hiện đại hóa ứng dụng và chuyển đổi sang Đám mây.

Imtiaz (Taz) Nói là Nhà lãnh đạo công nghệ toàn cầu về phân tích tại AWS. Anh ấy thích tham gia với cộng đồng về mọi thứ liên quan đến dữ liệu và phân tích. Anh ấy có thể liên lạc được qua LinkedIn.

Phân phối nội dung và PR được hỗ trợ bởi SEO. Được khuếch đại ngay hôm nay.
PlatoData.Network Vertical Generative Ai. Trao quyền cho chính mình. Truy cập Tại đây.
PlatoAiStream. Thông minh Web3. Kiến thức khuếch đại. Truy cập Tại đây.
Trung tâmESG. Than đá, công nghệ sạch, Năng lượng, Môi trường Hệ mặt trời, Quản lý chất thải. Truy cập Tại đây.
PlatoSức khỏe. Tình báo thử nghiệm lâm sàng và công nghệ sinh học. Truy cập Tại đây.
nguồn: https://aws.amazon.com/blogs/big-data/exploring-real-time-streaming-for-generative-ai-applications/

Trí thông minh dữ liệu tạo

Khám phá tính năng phát trực tuyến theo thời gian thực cho các Ứng dụng AI tổng hợp | Dịch vụ web của Amazon

Học trong ngữ cảnh