Logo Zephyrnet

Giới thiệu quy mô môi trường lớn hơn của Amazon MWAA | Dịch vụ web của Amazon

Ngày:

Quy trình công việc được quản lý của Amazon cho Luồng khí Apache (Amazon MWAA) là một dịch vụ được quản lý dành cho Luồng khí Apache giúp hợp lý hóa việc thiết lập và vận hành cơ sở hạ tầng để điều phối các đường dẫn dữ liệu trên đám mây. Khách hàng sử dụng Amazon MWAA để quản lý khả năng mở rộng, độ sẵn sàng và bảo mật của môi trường Apache Airflow của họ. Khi họ thiết kế các quy trình xử lý dữ liệu chuyên sâu, phức tạp và ngày càng phát triển, khách hàng đã yêu cầu chúng tôi cung cấp thêm các tài nguyên cơ bản để cung cấp khả năng và khả năng xử lý đồng thời cao hơn cho các nhiệm vụ và quy trình công việc của họ.

Để giải quyết vấn đề này, hôm nay, chúng tôi công bố sự sẵn có của các lớp môi trường lớn hơn trong Amazon MWAA. Trong bài đăng này, chúng ta sẽ đi sâu vào khả năng của các môi trường XL và 2XL mới này, các tình huống phù hợp với chúng cũng như cách bạn có thể thiết lập hoặc nâng cấp môi trường Amazon MWAA hiện tại của mình để tận dụng các tài nguyên gia tăng.

Những thách thức hiện tại

Khi bạn tạo môi trường Amazon MWAA, một tập hợp các môi trường được quản lý Dịch vụ container đàn hồi Amazon (Amazon ECS) với Cổng xa AWS các thùng chứa được cung cấp CPU và RAM ảo được xác định.

Khi bạn làm việc với khối lượng công việc lớn hơn, phức tạp, tốn nhiều tài nguyên hoặc chạy hàng nghìn Đồ thị Acyclic có hướng (DAG) mỗi ngày, bạn có thể bắt đầu cạn kiệt tính khả dụng của CPU trên bộ lập lịch và trình chạy hoặc đạt đến giới hạn bộ nhớ ở trình chạy. Việc chạy Apache Airflow trên quy mô lớn sẽ tạo ra tải lớn hơn tương ứng cho cơ sở dữ liệu siêu dữ liệu Airflow, đôi khi dẫn đến các vấn đề về CPU và bộ nhớ trên nền tảng cơ sở. Dịch vụ cơ sở dữ liệu quan hệ của Amazon (Amazon RDS). Cơ sở dữ liệu siêu dữ liệu thiếu tài nguyên có thể dẫn đến mất kết nối từ nhân viên của bạn, thực hiện nhiệm vụ sớm.

Để cải thiện hiệu suất và khả năng phục hồi nhiệm vụ của bạn, hãy cân nhắc những điều sau Các phương pháp hay nhất về Luồng khí của Apache để tạo DAG. Ngoài ra, bạn có thể tạo nhiều môi trường Amazon MWAA để phân bổ khối lượng công việc. Tuy nhiên, điều này đòi hỏi nỗ lực kỹ thuật và quản lý bổ sung.

Các lớp môi trường mới

Với bản phát hành hôm nay, giờ đây bạn có thể tạo môi trường XL và 2XL trong Amazon MWAA bên cạnh các lớp môi trường hiện có. Chúng có khả năng tính toán gấp hai và bốn lần, cũng như bộ nhớ gấp ba và sáu lần tương ứng với lớp phiên bản môi trường Amazon MWAA lớn hiện tại. Các phiên bản này bổ sung tuyến tính điện toán và RAM để trực tiếp cải thiện công suất và hiệu suất của tất cả các thành phần Apache Airflow. Bảng sau đây tóm tắt các khả năng môi trường.

. Bộ lập lịch và CPU / RAM công nhân

Web Server

CPU/RAM

Nhiệm vụ đồng thời Công suất DAG
mw1.xlarge 8 vCPU / 24 GB 4 vCPU / 12 GB 40 nhiệm vụ (mặc định) Lên đến 2000
mw1.2xlarge 16 vCPU / 48 GB 8 vCPU / 24 GB 80 nhiệm vụ (mặc định) Lên đến 4000

Với việc giới thiệu những môi trường lớn hơn này, cơ sở dữ liệu siêu dữ liệu Amazon Aurora của bạn giờ đây sẽ sử dụng các phiên bản lớn hơn, được tối ưu hóa bộ nhớ được hỗ trợ bởi AWS Graviton2. Với dòng bộ xử lý Graviton2, bạn sẽ nhận được những cải tiến về điện toán, lưu trữ và kết nối mạng cũng như giảm lượng khí thải carbon do dòng bộ xử lý AWS mang lại.

GIÁ CẢ

Kích thước định giá của Amazon MWAA không thay đổi và bạn chỉ trả tiền cho những gì bạn sử dụng:

  • Lớp môi trường
  • Các phiên bản công nhân bổ sung
  • Các trường hợp lập lịch bổ sung
  • Đã sử dụng dung lượng lưu trữ cơ sở dữ liệu siêu dữ liệu

Giờ đây, bạn có hai tùy chọn bổ sung trong ba chiều đầu tiên: XL và 2XL cho lớp môi trường, các phiên bản trình chạy bổ sung và trình lập lịch trình. Giá lưu trữ cơ sở dữ liệu siêu dữ liệu vẫn giữ nguyên. tham khảo Quy trình làm việc được quản lý của Amazon để định giá luồng khí Apache để biết giá và biết thêm chi tiết.

Quan sát hiệu suất của Amazon MWAA để lên kế hoạch mở rộng quy mô sang môi trường lớn hơn

Trước khi bắt đầu sử dụng các lớp môi trường mới, điều quan trọng là phải hiểu liệu bạn có đang gặp phải tình huống liên quan đến vấn đề về dung lượng hay không, chẳng hạn như cơ sở dữ liệu siêu dữ liệu hết bộ nhớ hoặc các công cụ hoặc bộ lập lịch chạy ở mức sử dụng CPU cao. Hiểu được hiệu suất của tài nguyên môi trường là chìa khóa để khắc phục sự cố liên quan đến dung lượng. Chúng tôi khuyên bạn nên làm theo hướng dẫn được mô tả trong Giới thiệu các số liệu sử dụng vùng chứa, cơ sở dữ liệu và hàng đợi cho môi trường Amazon MWAA để hiểu rõ hơn về trạng thái của môi trường Amazon MWAA và nhận thông tin chi tiết để điều chỉnh kích thước phù hợp cho phiên bản của bạn.

Trong thử nghiệm sau đây, chúng tôi mô phỏng kịch bản tải cao, sử dụng Số liệu về khả năng quan sát của CloudWatch để xác định các vấn đề thường gặp và đưa ra quyết định sáng suốt để lập kế hoạch mở rộng quy mô sang các môi trường lớn hơn nhằm giảm thiểu các vấn đề.

Trong các thử nghiệm của mình, chúng tôi đã chạy một DAG phức tạp tự động tạo ra hơn 500 tác vụ và sử dụng các cảm biến bên ngoài để chờ hoàn thành một tác vụ trong một DAG khác. Sau khi chạy trên lớp môi trường lớn Amazon MWAA với tính năng tự động thay đổi quy mô được thiết lập tối đa 10 nút công nhân, chúng tôi nhận thấy các số liệu và giá trị sau trong Bảng điều khiển CloudWatch.

Các nút công nhân đã đạt đến dung lượng CPU tối đa, khiến số lượng tác vụ được xếp hàng tiếp tục tăng lên. Việc sử dụng CPU của cơ sở dữ liệu siêu dữ liệu đã đạt mức tối đa trên 65% công suất và bộ nhớ trống của cơ sở dữ liệu sẵn có đã bị giảm. Trong tình huống này, chúng tôi có thể mở rộng quy mô các nút công nhân hơn nữa, nhưng điều đó sẽ gây thêm tải cho CPU cơ sở dữ liệu siêu dữ liệu. Điều này có thể dẫn đến giảm số lượng kết nối cơ sở dữ liệu công nhân và bộ nhớ cơ sở dữ liệu trống sẵn có.

Với các lớp môi trường mới, bạn có thể mở rộng quy mô theo chiều dọc để tăng tài nguyên sẵn có bằng cách chỉnh sửa môi trường và chọn lớp môi trường cao hơn, như minh họa trong ảnh chụp màn hình sau.

Từ danh sách môi trường, chúng tôi chọn môi trường được sử dụng cho thử nghiệm này. Chọn Chỉnh sửa để điều hướng đến Định cấu hình cài đặt nâng cao trang và chọn môi trường xlarge hoặc 2xlarge thích hợp theo yêu cầu.

Sau khi bạn lưu thay đổi, quá trình nâng cấp môi trường sẽ mất 20–30 phút để hoàn tất. Mọi DAG đang chạy bị gián đoạn trong quá trình nâng cấp đều được lên lịch để thử lại, tùy thuộc vào cách bạn định cấu hình các lần thử lại cho DAG của mình. Bây giờ bạn có thể chọn gọi chúng theo cách thủ công hoặc đợi lần chạy theo lịch trình tiếp theo.

Sau khi nâng cấp lớp môi trường, chúng tôi đã thử nghiệm cùng một DAG và quan sát thấy các số liệu đang hiển thị các giá trị được cải thiện vì hiện có nhiều tài nguyên hơn. Với môi trường XL này, bạn có thể chạy nhiều tác vụ hơn trên ít nút công nhân hơn và do đó số lượng tác vụ xếp hàng tiếp tục giảm. Ngoài ra, nếu bạn có các tác vụ yêu cầu nhiều bộ nhớ và/hoặc CPU hơn, bạn có thể giảm số tác vụ trên mỗi trình chạy nhưng vẫn đạt được số lượng tác vụ cao trên mỗi trình chạy với kích thước môi trường lớn hơn. Ví dụ: nếu bạn có một môi trường rộng lớn trong đó CPU nút công việc được sử dụng tối đa với celery.worker_autoscale (Cấu hình Luồng khí xác định số lượng nhiệm vụ trên mỗi công nhân) Đặt ở mức 20,20, bạn có thể tăng lên môi trường XL và đặt celery.worker_autoscale xuống 20,20 trên XL, thay vì 40 tác vụ mặc định cho mỗi nhân viên trên môi trường XL và tải CPU sẽ giảm đáng kể.

Thiết lập môi trường XL mới trong Amazon MWAA

Bạn có thể bắt đầu với Amazon MWAA trong tài khoản của bạn và Khu vực AWS ưa thích bằng cách sử dụng Bảng điều khiển quản lý AWS, API, hoặc Giao diện dòng lệnh AWS (AWS CLI). Nếu bạn đang sử dụng cơ sở hạ tầng dưới dạng mã (IaC), bạn có thể tự động hóa quá trình thiết lập bằng cách sử dụng Hình thành đám mây AWS, Các Bộ công cụ phát triển đám mây AWS (AWS CDK) hoặc tập lệnh Terraform.

Các lớp môi trường Amazon MWAA XL và 2XL hiện có sẵn ở tất cả các Khu vực hiện có sẵn Amazon MWAA.

Kết luận

Hôm nay, chúng tôi công bố về sự sẵn có của hai lớp môi trường mới trong Amazon MWAA. Với các lớp môi trường XL và 2XL, bạn có thể sắp xếp khối lượng lớn hơn các quy trình làm việc phức tạp hoặc tốn nhiều tài nguyên. Nếu bạn đang chạy DAG với số lượng phụ thuộc cao, chạy hàng nghìn DAG trên nhiều môi trường hoặc trong một tình huống yêu cầu bạn sử dụng nhiều công nhân để tính toán, giờ đây bạn có thể khắc phục các vấn đề về năng lực liên quan bằng cách tăng tài nguyên môi trường của mình trong một vài phút. các bước đơn giản.

Trong bài đăng này, chúng tôi đã thảo luận về khả năng của hai lớp môi trường mới, bao gồm cả giá cả và một số vấn đề hạn chế tài nguyên phổ biến mà chúng giải quyết. Chúng tôi đã cung cấp hướng dẫn và ví dụ về cách quan sát các môi trường hiện có của bạn để lập kế hoạch mở rộng lên XL hoặc 2XL, đồng thời chúng tôi đã mô tả cách bạn có thể nâng cấp các môi trường hiện có để sử dụng các tài nguyên gia tăng.

Để biết thêm chi tiết và ví dụ về mã trên Amazon MWAA, hãy truy cập Hướng dẫn sử dụng Amazon MWAAAmazon MWAA ví dụ GitHub repo.

Apache, Apache Airflow và Airflow là nhãn hiệu đã đăng ký hoặc nhãn hiệu của Quỹ phần mềm Apache ở Hoa Kỳ và / hoặc các quốc gia khác.


Về các tác giả

Hernan García là Kiến trúc sư giải pháp cấp cao tại AWS có trụ sở tại Hà Lan. Anh làm việc trong ngành dịch vụ tài chính, hỗ trợ các doanh nghiệp áp dụng đám mây. Anh ấy đam mê công nghệ serverless, bảo mật và tuân thủ. Anh ấy thích dành thời gian với gia đình và bạn bè, đồng thời thử những món ăn mới từ nhiều nền ẩm thực khác nhau.

Jeetendra Vaidya là Kiến trúc sư giải pháp cấp cao tại AWS, mang kiến ​​thức chuyên môn của mình vào các lĩnh vực AI/ML, serverless và phân tích dữ liệu. Anh ấy đam mê hỗ trợ khách hàng trong việc xây dựng các giải pháp an toàn, có thể mở rộng, đáng tin cậy và tiết kiệm chi phí.

Sriharsh Adari là Kiến trúc sư giải pháp cấp cao tại AWS, nơi ông giúp khách hàng làm việc ngược lại với kết quả kinh doanh để phát triển các giải pháp đổi mới trên AWS. Trong những năm qua, anh đã giúp nhiều khách hàng chuyển đổi nền tảng dữ liệu ở các ngành dọc. Lĩnh vực chuyên môn cốt lõi của ông bao gồm chiến lược công nghệ, phân tích dữ liệu và khoa học dữ liệu. Trong thời gian rảnh rỗi, anh ấy thích chơi thể thao, xem chương trình TV và chơi Tabla.

tại chỗ_img

Tin tức mới nhất

tại chỗ_img