Logo Zephyrnet

Đặt dữ liệu lên hàng đầu khi triển khai lưu trữ tệp mở rộng cho các hệ thống được tăng tốc

Ngày:

Được tài trợ Thật dễ dàng để dành nhiều thời gian suy nghĩ về tính toán và kết nối trong bất kỳ loại khối lượng công việc điện toán hiệu suất cao nào – và khó có thể không dành nhiều thời gian để suy nghĩ về bộ lưu trữ hỗ trợ khối lượng công việc đó. Điều đặc biệt quan trọng là phải suy nghĩ về loại và khối lượng dữ liệu sẽ cung cấp cho các ứng dụng này vì điều này, hơn bất kỳ yếu tố nào khác, sẽ quyết định sự thành công hay thất bại của khối lượng công việc đó trong việc đáp ứng nhu cầu của tổ chức.

Ngày nay, tâm lý “đám mây là trên hết” đang thịnh hành khi nói đến cơ sở hạ tầng CNTT, nhưng điều mà các tổ chức thực sự cần là thái độ “dữ liệu là trên hết” và sau đó nhận ra rằng đám mây chỉ là một mô hình triển khai với sơ đồ định giá và – có lẽ – một nguồn tài nguyên sâu hơn nhiều tổ chức đã quen thuộc. Nhưng những vực sâu đó phải trả giá. Việc di chuyển dữ liệu vào đám mây hoặc tạo dữ liệu ở đó và giữ nó ở đó là khá rẻ; tuy nhiên, việc di chuyển dữ liệu từ đám mây để có thể sử dụng ở nơi khác có thể rất tốn kém.

Các lớp ứng dụng HPC mới, chẳng hạn như đào tạo máy học và phân tích dữ liệu chạy trên quy mô lớn, có xu hướng cung cấp hoặc tạo các tập dữ liệu lớn, vì vậy điều quan trọng là phải đặt dữ liệu này lên hàng đầu khi hệ thống đang được kiến ​​trúc. Một điều bạn không muốn làm là tìm ra đâu đó giữa bằng chứng về khái niệm và sản xuất rằng bạn có bộ nhớ sai – hoặc tệ hơn nữa, phát hiện ra rằng bộ nhớ của bạn không thể theo kịp dữ liệu khi khối lượng công việc mới xuất hiện sản xuất và là một thành công vang dội.

Brian Henderson, giám đốc tiếp thị sản phẩm lưu trữ dữ liệu phi cấu trúc tại Dell Technologies, cho biết: “Khi phần cứng lưu trữ được bổ sung như một giải pháp khắc phục nhanh chóng mà không có chiến lược được cân nhắc kỹ lưỡng về các yêu cầu hiện tại và tương lai, các vấn đề sẽ thường phát sinh”. “Các tổ chức mua một số máy chủ, gắn một số bộ lưu trữ, khởi động dự án và xem nó diễn ra như thế nào. Cách tiếp cận này thường dẫn đến các vấn đề về quy mô, vấn đề về hiệu suất, vấn đề chia sẻ dữ liệu. Những gì các tổ chức này cần là một giải pháp lưu trữ tệp có quy mô linh hoạt cho phép họ chứa tất cả dữ liệu khác nhau và kết nối tất cả dữ liệu đó để các bên liên quan và ứng dụng đều có thể truy cập và chia sẻ dữ liệu đó một cách nhanh chóng và dễ dàng.”

Vì vậy, điều quan trọng là phải xem xét một số yêu cầu lưu trữ dữ liệu quan trọng trước khi các thành phần mạng và điện toán được thiết lập sẵn trong đơn đặt hàng.

Điều đầu tiên cần xem xét là quy mô và bạn nên giả định quy mô ngay từ đầu, sau đó tìm một hệ thống có thể bắt đầu ở quy mô nhỏ nhưng phát triển đủ lớn để chứa dữ liệu và phục vụ các hệ thống cũng như loại dữ liệu khác nhau.

Mặc dù có thể dựa vào bộ nhớ trong hoặc một kho lưu trữ được gắn vào hệ thống hoặc cụm, nhưng khối lượng công việc HPC và AI thường được tăng tốc nhờ GPU của NVIDIA. Tốt nhất nên giả định rằng tính toán, lưu trữ và kết nối mạng sẽ phải mở rộng quy mô khi khối lượng công việc và bộ dữ liệu tăng lên và sinh sôi nảy nở. Có nhiều vectơ tăng trưởng khác nhau cần xem xét và việc quên bất kỳ vectơ nào trong số chúng có thể dẫn đến các vấn đề về năng lực và hiệu suất trong tương lai.

Và có một yếu tố thậm chí còn tinh vi hơn đối với vấn đề quy mô lưu trữ này cần được xem xét. Dữ liệu được lưu trữ cho cả hệ thống HPC và AI. Các ứng dụng HPC lấy một lượng nhỏ các điều kiện ban đầu và tạo ra một mô phỏng và trực quan hóa lớn tiết lộ điều gì đó về thế giới thực, trong khi các hệ thống AI lấy lượng thông tin khổng lồ – thường là sự kết hợp giữa dữ liệu có cấu trúc và không cấu trúc – và chắt lọc nó thành một mô hình có thể được sử dụng để phân tích thế giới thực hoặc phản ứng với nó. Các bộ dữ liệu ban đầu này và mô hình của chúng phải được bảo tồn vì lý do kinh doanh cũng như quản trị dữ liệu và tuân thủ quy định.

Bạn không thể vứt bỏ dữ liệu này ngay cả khi bạn muốn

Thomas Henson, giám đốc phát triển kinh doanh toàn cầu về AI và phân tích của nhóm Giải pháp dữ liệu phi cấu trúc tại Dell Technologies, cho biết: “Bạn không thể vứt bỏ dữ liệu này ngay cả khi bạn muốn”. “Bất kể ngành dọc nào – ô tô, chăm sóc sức khỏe, vận tải, dịch vụ tài chính – bạn có thể thấy thiếu sót trong thuật toán và kiện tụng là một vấn đề. Bạn sẽ phải hiển thị dữ liệu được đưa vào các thuật toán tạo ra kết quả bị lỗi hoặc chứng minh rằng không phải vậy. Ở một mức độ nhất định, giá trị của thuật toán đó là dữ liệu được đưa vào nó. Và đó chỉ là một ví dụ nhỏ thôi.”

Vì vậy, đối với các hệ thống lai CPU-GPU, có lẽ tốt nhất nên giả định rằng bộ nhớ cục bộ trên máy sẽ không đủ và cần có bộ nhớ ngoài có khả năng chứa nhiều dữ liệu phi cấu trúc. Vì lý do kinh tế, vì AI và một số dự án HPC vẫn đang trong giai đoạn thử nghiệm ý tưởng, nên sẽ rất hữu ích nếu bắt đầu từ quy mô nhỏ và có thể mở rộng công suất cũng như hiệu suất nhanh chóng và trên các vectơ độc lập, nếu cần.

Các mảng toàn flash PowerScale chạy hệ thống tệp OneFS của Dell Technologies phù hợp với cấu hình lưu trữ này. Hệ thống cơ sở có cấu hình ba nút có dung lượng lưu trữ thô lên tới 11 TB và mức giá khiêm tốn dưới sáu con số, đồng thời đã được thử nghiệm trong phòng thí nghiệm lên tới 250 nút trong cụm lưu trữ dùng chung có thể chứa tới 96 PB Dữ liệu. Và nhân tiện, Dell Technologies có khách hàng chạy mảng PowerScale ở quy mô cao hơn nhiều so với quy mô này, nhưng họ thường tạo ra các cụm riêng biệt để giảm khả năng xảy ra vụ nổ khi mất điện. Điều này cực kỳ hiếm.

PowerScale có thể được triển khai tại chỗ hoặc có thể được mở rộng thành một số đám mây công cộng với các tùy chọn tích hợp nhiều đám mây hoặc đám mây gốc, nơi khách hàng có thể tận dụng lợi thế của điện toán bổ sung hoặc các dịch vụ đám mây gốc khác.

Hiệu suất là một phần khác của quy mô mà các công ty cần xem xét và điều này đặc biệt quan trọng khi hệ thống đang được GPU tăng tốc. Kể từ những ngày đầu của điện toán GPU, NVIDIA đã nỗ lực để loại bỏ CPU và bộ nhớ của nó và giữ cho nó không trở thành nút thắt cổ chai khiến GPU không thể chia sẻ dữ liệu (GPUDirect) khi chúng chạy mô phỏng hoặc xây dựng mô hình hoặc ngăn GPU truy cập bộ lưu trữ nhanh như chớp (GPUDirect Storage).

Nếu bộ nhớ ngoài là cần thiết cho các hệ thống tăng tốc GPU như vậy – không đời nào các máy chủ có bốn hoặc tám GPU sẽ có đủ bộ nhớ để chứa các bộ dữ liệu mà hầu hết các ứng dụng HPC và AI xử lý – thì có vẻ như rõ ràng rằng bất kể bộ lưu trữ đó là gì đều phải nói lên điều đó GPUDirect Storage và nói nhanh.

Người giữ kỷ lục trước đó là Pavilion Data, đã thử nghiệm mảng lưu trữ 2.2 PB và đã có thể đọc dữ liệu vào hệ thống DGX-A100 dựa trên GPU A100 “Ampere” mới với tốc độ 191 GB/giây ở chế độ tệp. Trong phòng thí nghiệm, Dell Technologies đang hoàn thiện các bài kiểm tra điểm chuẩn GPUDirect Storage chạy trên mảng PowerScale và cho biết nó có thể đẩy hiệu suất cao hơn đáng kể, ít nhất là lên 252 GB/giây. Và vì PowerScale có thể mở rộng tới 252 nút trong một không gian tên duy nhất nên nó không dừng lại ở đó và có thể mở rộng hơn thế nữa nếu cần.

Henderson cho biết: “Vấn đề là chúng tôi biết cách tối ưu hóa cho các môi trường tính toán GPU này. Và đây là tuyên bố tổng quát hơn về hiệu suất của các hệ thống được tăng tốc GPU chạy khối lượng công việc AI và cách hoạt động của bộ lưu trữ PowerScale:

Phạm vi hỗ trợ cho nhiều loại hệ thống khác nhau là một điều khác cần xem xét khi thiết kế hệ thống CPU-GPU lai. Bản chất của bộ nhớ dùng chung là được chia sẻ và điều quan trọng là có thể sử dụng dữ liệu trên bộ nhớ dùng chung cho các ứng dụng khác. Mảng PowerScale đã được tích hợp với hơn 250 ứng dụng và được chứng nhận là được hỗ trợ trên nhiều loại hệ thống. Đây là một trong những lý do khiến bộ lưu trữ Isilon và PowerScale có hơn 15,000 khách hàng trên toàn thế giới.

Điện toán hiệu năng cao không chỉ dừng lại ở hiệu suất, đặc biệt là trong môi trường doanh nghiệp nơi tài nguyên bị hạn chế và việc kiểm soát hệ thống cũng như dữ liệu là vô cùng quan trọng. Vì vậy, điều tiếp theo phải được xem xét khi kiến ​​trúc bộ lưu trữ cho các hệ thống tăng tốc GPU là quản lý bộ nhớ.

Công cụ lên

Về mặt này, Dell Technologies mang đến một số công cụ cho bữa tiệc. Đầu tiên là thông tin chi tiết, thực hiện giám sát và báo cáo lưu trữ rất cụ thể và chi tiết cho PowerScale và tiền thân của nó, mảng lưu trữ Isilon.

Một công cụ khác được gọi là đám mâyIQ, sử dụng kỹ thuật học máy và phân tích dự đoán để giám sát và giúp quản lý toàn bộ các sản phẩm cơ sở hạ tầng của Dell Technologies, bao gồm PowerStore, PowerMax, PowerScale, PowerVault, Unity XT, XtremIO và SC Series, cũng như Máy chủ PowerEdge, máy hội tụ và siêu hội tụ các nền tảng như VxBlock, VxRail và PowerFlex.

Và cuối cùng, có Dữ liệuIQ, phần mềm quản lý tập dữ liệu và giám sát lưu trữ dành cho dữ liệu phi cấu trúc, cung cấp chế độ xem thống nhất về các tập dữ liệu phi cấu trúc trên các mảng PowerScale, PowerMax và PowerStore cũng như lưu trữ đám mây từ các đám mây công cộng lớn. DataIQ không chỉ hiển thị cho bạn các tập dữ liệu phi cấu trúc mà còn theo dõi cách chúng được sử dụng và di chuyển chúng đến bộ lưu trữ thích hợp nhất, chẳng hạn như hệ thống tệp tại chỗ hoặc bộ lưu trữ đối tượng dựa trên đám mây.

Vấn đề cần cân nhắc cuối cùng là độ tin cậy và khả năng bảo vệ dữ liệu, hai yếu tố này luôn song hành với bất kỳ nền tảng lưu trữ cấp doanh nghiệp nào. Mảng PowerScale có nguồn gốc từ Isilon và hệ thống tệp OneFS của nó, đã tồn tại từ lâu và được các tổ chức HPC doanh nghiệp, chính phủ và học thuật tin cậy trong hai thập kỷ. OneFS và phần cứng PowerScale cơ bản của nó được thiết kế để cung cấp độ khả dụng lên tới 99.9999 phần trăm, trong khi hầu hết các dịch vụ lưu trữ đám mây xử lý dữ liệu phi cấu trúc đều may mắn có được thỏa thuận dịch vụ với độ sẵn sàng 99.9 phần trăm. Cái trước có 31 giây ngừng hoạt động mỗi năm, trong khi cái sau ngoại tuyến là 46 giờ XNUMX phút.

Hơn nữa, PowerScale được thiết kế để mang lại hiệu suất tốt và duy trì quyền truy cập dữ liệu ngay cả khi một số nút trong cụm lưu trữ ngừng hoạt động để bảo trì hoặc tự sửa chữa sau khi xảy ra lỗi thành phần. (Rốt cuộc, lỗi linh kiện là điều không thể tránh khỏi đối với tất cả các thiết bị CNTT.)

Nhưng ngày nay, có một loại khả năng phục hồi khác đang ngày càng trở nên quan trọng: phục hồi sau các cuộc tấn công của ransomware.

“Chúng tôi có tính năng bảo vệ ransomware tích hợp API cho quy mô sức mạnh điều đó sẽ phát hiện hành vi đáng ngờ trên hệ thống tệp OneFS và cảnh báo cho quản trị viên về hành vi đó,” Henderson nói. “Và rất nhiều khách hàng của chúng tôi đang triển khai thiết lập cụm air-gapped riêng biệt về mặt vật lý để duy trì một bản sao riêng cho tất cả dữ liệu của họ. Trong trường hợp bị tấn công mạng, bạn chỉ cần tắt bộ lưu trữ sản xuất và bạn có dữ liệu của mình và bạn không cố gắng khôi phục từ bản sao lưu hoặc kho lưu trữ, việc này có thể mất vài ngày hoặc vài tuần – đặc biệt nếu bạn đang khôi phục từ kho lưu trữ trên đám mây. Một khi bạn đang nói về hàng petabyte dữ liệu, việc đó có thể mất vài tháng.

“Chúng tôi có thể khôi phục nhanh chóng với tốc độ sao chép bộ nhớ rất nhanh. Và bạn có các tùy chọn để lưu trữ giải pháp bảo vệ ransomware của mình trong môi trường nhiều đám mây, nơi bạn có thể khôi phục dữ liệu của mình từ một sự kiện mạng tận dụng đám mây công cộng.”

Được tài trợ bởi Dell.

PlatoAi. Web3 được mô phỏng lại. Khuếch đại dữ liệu thông minh.
Nhấn vào đây để truy cập.

Nguồn: https://go.theregister.com/feed/www.theregister.com/2021/10/12/data_first_dell/

tại chỗ_img

Tin tức mới nhất

tại chỗ_img

Trò chuyện trực tiếp với chúng tôi (chat)

Chào bạn! Làm thế nào để tôi giúp bạn?