Logo Zephyrnet

Cách Aura từ Unity cách mạng hóa đường dẫn dữ liệu lớn của họ với Amazon Redshift Serverless | Dịch vụ web của Amazon

Ngày:

Bài đăng này được đồng viết với Amir Souchami và Fabian Szenkier từ Unity.

Hào quang từ sự thống nhất (trước đây gọi là ironSource) là tiêu chuẩn thị trường để tạo ra trải nghiệm thiết bị phong phú nhằm thu hút và giữ chân khách hàng. Với bộ giải pháp mạnh mẽ, Aura cho phép chuyển đổi kỹ thuật số hoàn chỉnh, cho phép các nhà khai thác quảng bá các dịch vụ chính bên ngoài cửa hàng, trực tiếp trên thiết bị.

Amazon RedShift là dịch vụ được đề xuất cho khối lượng công việc xử lý phân tích trực tuyến (OLAP), chẳng hạn như kho dữ liệu đám mây, siêu thị dữ liệu và các kho dữ liệu phân tích khác. Bạn có thể sử dụng SQL đơn giản để phân tích dữ liệu có cấu trúc và bán cấu trúc, cơ sở dữ liệu vận hành và hồ dữ liệu nhằm mang lại mức giá/hiệu suất tốt nhất ở mọi quy mô. Các Chia sẻ dữ liệu Amazon Redshift tính năng này cung cấp quyền truy cập tức thì, chi tiết và hiệu suất cao mà không cần sao chép và di chuyển dữ liệu trên nhiều kho dữ liệu Redshift trong cùng một tài khoản AWS hoặc các tài khoản AWS khác nhau và trên khắp các Khu vực AWS. Chia sẻ dữ liệu cung cấp quyền truy cập trực tiếp vào dữ liệu để bạn luôn thấy thông tin cập nhật và nhất quán nhất khi được cập nhật trong kho dữ liệu.

Amazon Redshift không có máy chủ giúp việc chạy và mở rộng quy mô phân tích trở nên đơn giản trong vài giây mà không cần thiết lập và quản lý cụm kho dữ liệu. Redshift Serverless tự động cung cấp và điều chỉnh quy mô công suất kho dữ liệu một cách thông minh để mang lại hiệu suất nhanh chóng cho cả những khối lượng công việc đòi hỏi khắt khe nhất và khó dự đoán nhất, đồng thời bạn chỉ phải trả tiền cho những gì mình sử dụng. Bạn có thể tải dữ liệu của mình và bắt đầu truy vấn ngay trong Trình soạn thảo truy vấn Amazon Redshift hoặc trong công cụ thông minh kinh doanh (BI) yêu thích của bạn và tiếp tục tận hưởng mức giá/hiệu suất tốt nhất cũng như các tính năng SQL quen thuộc trong môi trường quản trị dễ sử dụng, không cần quản trị .

Trong bài đăng này, chúng tôi mô tả việc Aura áp dụng Redshift Serverless thành công và nhanh chóng, cho phép họ tối ưu hóa thời gian tiếp thị tổng thể của các chiến dịch quảng cáo đặt giá thầu từ 24 giờ xuống còn 2 giờ. Chúng tôi khám phá lý do tại sao Aura chọn giải pháp này và những thách thức công nghệ mà nó đã giúp giải quyết.

Đường dẫn dữ liệu ban đầu của Aura

Aura là công ty tiên phong trong việc sử dụng cụm Redshift RA3 với tính năng chia sẻ dữ liệu cho khối lượng công việc trích xuất, chuyển đổi và tải (ETL) và BI. Một trong những hoạt động của Aura là đấu thầu các chiến dịch quảng cáo. Các chiến dịch này được tối ưu hóa bằng cách sử dụng quy trình đặt giá thầu dựa trên AI yêu cầu chạy hàng trăm truy vấn phân tích cho mỗi chiến dịch. Các truy vấn này được chạy trên dữ liệu nằm trong cụm Redshift do RA3 cung cấp.

Quy trình tích hợp bao gồm nhiều dịch vụ AWS khác nhau:

Sơ đồ sau minh họa kiến ​​trúc này.

Kiến trúc hào quang

Những thách thức của kiến ​​trúc ban đầu

Các truy vấn cho mỗi chiến dịch chạy theo cách sau:

Đầu tiên, truy vấn chuẩn bị sẽ lọc và tổng hợp dữ liệu thô, chuẩn bị dữ liệu đó cho thao tác tiếp theo. Tiếp theo là truy vấn chính, thực hiện logic theo tập kết quả truy vấn chuẩn bị.

Khi số lượng chiến dịch tăng lên, nhóm Dữ liệu của Aura được yêu cầu chạy hàng trăm truy vấn đồng thời cho mỗi bước này. Cụm được cung cấp hiện tại của Aura đã được sử dụng rất nhiều với khối lượng công việc nhập dữ liệu, ETL và BI, vì vậy, họ đang tìm kiếm những cách tiết kiệm chi phí để tách khối lượng công việc này bằng các tài nguyên điện toán chuyên dụng.

Nhóm đã đánh giá nhiều tùy chọn khác nhau, bao gồm tải dữ liệu lên Amazon S3 và kiến ​​trúc nhiều cụm sử dụng tính năng chia sẻ dữ liệu và Redshift serverless. Nhóm hướng tới kiến ​​trúc nhiều cụm với tính năng chia sẻ dữ liệu vì kiến ​​trúc này không yêu cầu viết lại truy vấn, cho phép điện toán chuyên dụng cho khối lượng công việc cụ thể này, tránh nhu cầu sao chép hoặc di chuyển dữ liệu từ cụm chính, đồng thời cung cấp khả năng mở rộng đồng thời và tự động cao. Cuối cùng, nó được tính phí theo mô hình trả tiền cho những gì bạn sử dụng và việc cung cấp rất đơn giản và nhanh chóng.

Bằng chứng của khái niệm

Sau khi đánh giá các tùy chọn, nhóm Dữ liệu của Aura đã quyết định tiến hành thử nghiệm khái niệm bằng cách sử dụng Redshift Serverless với tư cách là người tiêu dùng của cụm được cung cấp Redshift chính của họ, chỉ chia sẻ các bảng có liên quan để chạy các truy vấn bắt buộc. Redshift Serverless đo lường dung lượng kho dữ liệu trong Đơn vị xử lý Redshift (RPU). Một RPU duy nhất cung cấp 16 GB bộ nhớ và điểm cuối không có máy chủ có thể dao động từ 8 RPU đến 512 RPU.

Nhóm Dữ liệu của Aura đã bắt đầu thử nghiệm bằng chứng khái niệm bằng cách sử dụng điểm cuối Redshift Serverless 256 RPU và giảm dần RPU để giảm chi phí trong khi vẫn đảm bảo thời gian chạy truy vấn thấp hơn mục tiêu yêu cầu.

Cuối cùng, nhóm đã quyết định sử dụng điểm cuối Redshift Serverless 128 RPU (RAM 2 TB) làm RPU cơ sở, đồng thời sử dụng tính năng tự động thay đổi quy mô của Redshift Serverless, cho phép chạy hàng trăm truy vấn đồng thời bằng cách tự động nâng cấp RPU khi cần.

Giải pháp mới của Aura với Redshift Serverless

Sau khi thử nghiệm khái niệm thành công, quá trình thiết lập sản xuất bao gồm việc thêm mã để chuyển đổi giữa cụm Redshift được cung cấp và điểm cuối Redshift Serverless. Điều này được thực hiện bằng cách sử dụng ngưỡng có thể định cấu hình dựa trên số lượng truy vấn đang chờ xử lý trong một chủ đề MSK cụ thể được sử dụng ở đầu quy trình. Các truy vấn chiến dịch quy mô nhỏ sẽ vẫn chạy trên cụm được cung cấp và các truy vấn quy mô lớn sẽ sử dụng điểm cuối Redshift Serverless. Giải pháp mới sử dụng quy trình Amazon MWAA để tìm nạp thông tin cấu hình từ bảng DynamoDB, sử dụng các công việc đại diện cho chiến dịch quảng cáo và sau đó chạy hàng trăm công việc EKS được kích hoạt bằng EKSPodOperator. Mỗi công việc chạy hai truy vấn nối tiếp (truy vấn chuẩn bị theo sau là truy vấn chính, truy vấn này sẽ xuất kết quả tới Amazon S3). Điều này xảy ra hàng trăm lần đồng thời khi sử dụng tài nguyên điện toán Redshift Serverless.

Sau đó, quy trình sẽ bắt đầu một nhóm toán tử EKSPodOperator khác để chạy mã đào tạo AI dựa trên kết quả dữ liệu đã được lưu trên Amazon S3.

Sơ đồ sau minh họa kiến ​​trúc giải pháp.

Hào quang kiến ​​trúc mới

Kết quả

Thời gian chạy tổng thể của quy trình đã giảm từ 24 giờ xuống chỉ còn 2 giờ, cải thiện gấp 12 lần. Sự tích hợp Redshift Serverless này, cùng với tính năng chia sẻ dữ liệu, đã giúp giảm 90% thời lượng quy trình, loại bỏ nhu cầu sao chép dữ liệu hoặc viết lại truy vấn. Hơn nữa, việc giới thiệu thiết bị tiêu dùng chuyên dụng làm tài nguyên điện toán độc quyền đã giảm bớt đáng kể tải trọng của cụm nhà sản xuất, cho phép chạy các truy vấn quy mô nhỏ nhanh hơn nữa.

“Redshift Serverless và tính năng chia sẻ dữ liệu đã cho phép chúng tôi cung cấp và mở rộng quy mô công suất kho dữ liệu của mình để mang lại hiệu suất nhanh, tính đồng thời cao và xử lý khối lượng công việc ML đầy thách thức với nỗ lực rất tối thiểu.”

– Amir Souchami, Kiến trúc sư hệ thống kỹ thuật chính của Aura.

Học hỏi

Nhóm Dữ liệu của Aura tập trung cao độ vào việc làm việc theo cách tiết kiệm chi phí và do đó đã triển khai một số biện pháp kiểm soát chi phí trong điểm cuối Redshift Serverless của họ:

  • Giới hạn tổng chi tiêu bằng cách đặt giới hạn sử dụng giờ RPU tối đa (mỗi ngày, tuần, tháng) cho nhóm làm việc. Aura đã định cấu hình giới hạn đó để khi đạt đến giới hạn đó, Amazon Redshift sẽ gửi cảnh báo đến nhóm quản trị viên Amazon Redshift có liên quan. Tính năng này cũng cho phép ghi một mục vào bảng hệ thống và thậm chí tắt các truy vấn của người dùng.
  • Sử dụng cấu hình RPU tối đa, xác định giới hạn trên của tài nguyên điện toán mà Redshift Serverless có thể sử dụng tại bất kỳ thời điểm nào. Khi giới hạn RPU tối đa được đặt cho nhóm làm việc, Redshift Serverless sẽ điều chỉnh trong giới hạn đó để tiếp tục chạy khối lượng công việc.
  • Thực hiện quy tắc giám sát truy vấn ngăn chặn việc sử dụng tài nguyên lãng phí và chi phí vượt mức do các truy vấn được viết kém.

Kết luận

Kho dữ liệu là một phần quan trọng của bất kỳ công ty dựa trên dữ liệu hiện đại nào, cho phép bạn trả lời các câu hỏi kinh doanh phức tạp và cung cấp thông tin chuyên sâu. Sự phát triển của Amazon Redshift cho phép Aura nhanh chóng thích ứng với các yêu cầu kinh doanh bằng cách kết hợp chia sẻ dữ liệu giữa kho dữ liệu Redshift Serverless được cung cấp. Hành trình của Aura với Redshift Serverless nhấn mạnh tiềm năng to lớn của việc tích hợp công nghệ chiến lược trong việc thúc đẩy hiệu quả và hoạt động xuất sắc.

Nếu hành trình của Aura thu hút sự quan tâm của bạn và bạn đang cân nhắc triển khai một giải pháp tương tự trong tổ chức của mình thì đây là một số bước chiến lược cần xem xét:

  • Bắt đầu bằng cách tìm hiểu kỹ về nhu cầu dữ liệu của tổ chức bạn và cách giải pháp đó có thể giải quyết chúng.
  • Hãy liên hệ với các chuyên gia AWS, những người có thể cung cấp cho bạn hướng dẫn dựa trên kinh nghiệm của chính họ. Hãy cân nhắc tham gia các buổi hội thảo, hội thảo hoặc diễn đàn trực tuyến thảo luận về các công nghệ này. Các tài nguyên sau được khuyến nghị để bắt đầu:
  • Một phần quan trọng của hành trình này là triển khai bằng chứng về khái niệm. Kinh nghiệm thực tế như vậy sẽ cung cấp những hiểu biết sâu sắc có giá trị trước khi chuyển sang sản xuất.

Nâng cao kiến ​​thức chuyên môn về Redshift của bạn. Bạn đã tận hưởng sức mạnh của Amazon Redshift chưa? Tăng cường hành trình dữ liệu của bạn với các tính năng mới nhất và hướng dẫn của chuyên gia. Hãy liên hệ với nhóm tài khoản AWS chuyên trách của bạn để được hỗ trợ cá nhân hóa, khám phá các khả năng tiên tiến và khai thác giá trị lớn hơn nữa từ dữ liệu của bạn với Dịch chuyển đỏ của Amazon.


Về các tác giả

Amir Souchami, Kiến trúc sư trưởng của Aura từ Unity, tập trung vào việc tạo ra các hệ thống đám mây và ứng dụng di động có khả năng phục hồi và hiệu suất ở quy mô lớn.

Fabian Szenkier là Kiến trúc sư ML và Dữ liệu lớn tại Aura by Unity, làm việc để xây dựng các giải pháp AI/ML hiện đại và các quy trình kỹ thuật dữ liệu hiện đại trên quy mô lớn.

Liat Tzur là Giám đốc tài khoản kỹ thuật cấp cao tại Amazon Web Services. Cô đóng vai trò là người ủng hộ khách hàng và hỗ trợ khách hàng của mình đạt được sự xuất sắc trong vận hành đám mây phù hợp với mục tiêu kinh doanh của họ.

Adi Jabkowski là Chuyên gia Redshift cấp cao tại EMEA, một phần của Tổ chức Chuyên gia Toàn cầu (WWSO) tại AWS.

Yonatan Dolan là Chuyên gia phân tích chính tại Amazon Web Services. Anh ấy làm việc tại Israel và giúp khách hàng khai thác các dịch vụ phân tích của AWS để tận dụng dữ liệu, thu thập thông tin chuyên sâu và thu được giá trị.

tại chỗ_img

Tin tức mới nhất

tại chỗ_img