和風網標誌

為加速系統部署橫向擴展文件存儲時,將數據放在首位

日期:

贊助 很容易在任何類型的高性能計算工作負載中花費大量時間來考慮計算和互連——並且很難不花同樣多的時間來考慮支持該工作負載的存儲。 考慮將提供給這些應用程序的數據的類型和數量尤為重要,因為這比任何其他因素更能決定該工作負載在滿足組織需求方面的成敗。

如今,在 IT 基礎設施方面擁有“雲優先”的心態很流行,但組織真正需要的是“數據優先”的態度,然後意識到雲只是一種具有定價方案的部署模型,而且——也許– 比許多組織習慣的更深的資源池。 但這些深水池是有代價的。 將數據移動到雲中或在那裡生成並保存在那裡是相當便宜的; 然而,從雲中移動數據以便在其他地方使用可能會非常昂貴。

新類別的 HPC 應用程序,例如大規模運行的機器學習訓練和數據分析,往往以大型數據集為基礎或創建大型數據集,因此在構建系統時保持這種數據至上的態度非常重要。 您不想做的一件事是在概念證明和生產之間找出您擁有錯誤存儲的某個地方——或者更糟糕的是,發現您的存儲無法跟上新工作負載的數據生產並取得了巨大的成功。

Dell Technologies 非結構化數據存儲產品營銷總監 Brian Henderson 表示:“如果添加存儲硬件作為快速解決方案,而沒有針對當前和未來的需求制定周密的戰略,則經常會出現問題。” “組織購買一些服務器,附加一些存儲,啟動項目,然後看看進展如何。 這種方法經常會導致規模問題、性能問題、數據共享問題。 這些組織需要的是靈活的橫向擴展文件存儲解決方案,使他們能夠包含所有不同的數據並連接所有數據,以便利益相關者和應用程序都可以快速輕鬆地訪問和共享這些數據。”

因此,在採購訂單中確定計算和網絡組件之前,考慮一些關鍵數據存儲要求非常重要。

首先要考慮的是規模,您應該從一開始就假設規模,然後找到一個系統,它可以從小規模開始,但可以增長到足以容納數據並為不同的系統和數據類型提供服務。

儘管可能依賴於內部存儲或連接到系統或集群的大雜燴,但 HPC 和 AI 工作負載通常由 NVIDIA 的 GPU 加速。 最好假設計算、存儲和網絡必須隨著工作負載和數據集的增長和激增而擴展。 有許多不同的增長向量需要考慮,忘記其中任何一個都可能導致容量和性能問題。

這個存儲規模問題還有一個更微妙的因素需要考慮。 為 HPC 和 AI 系統存檔數據。 HPC 應用程序採用少量初始條件並創建大規模模擬和可視化,以揭示現實世界的一些東西,而 AI 系統採用大量信息(通常是結構化和非結構化數據的混合)並將其提煉成一個模型,該模型可用於用於分析現實世界或對其做出反應。 出於業務原因以及數據治理和法規遵從性,必須保留這些初始數據集及其模型。

即使你想扔掉這些數據,你也不能扔掉

“即使您願意,也不能丟棄這些數據,”戴爾科技公司非結構化數據解決方案團隊人工智能和分析全球業務開發經理 Thomas Henson 說。 “無論是什麼垂直行業——汽車、醫療保健、運輸、金融服務——你都可能會發現算法存在缺陷,訴訟是一個問題。 您必須展示輸入算法的數據,這些數據產生了有缺陷的結果或證明沒有。 在某種程度上,該算法的價值在於輸入它的數據。 而這只是一個小例子。”

因此,對於混合 CPU-GPU 系統,最好假設機器上的本地存儲是不夠的,並且需要能夠保存大量非結構化數據的外部存儲。 出於經濟原因,由於 AI 和一些 HPC 項目仍處於概念驗證階段,因此從小規模開始並能夠在獨立向量上快速擴展容量和性能(如果需要)將非常有用。

運行 Dell Technologies 的 OneFS 文件系統的 PowerScale 全閃存陣列適合這種存儲配置文件。 基本系統採用三節點配置,具有高達 11 TB 的原始存儲和低於 250 位數的適中價格,並已在實驗室中測試了最多 96 個節點的共享存儲集群,最多可容納 XNUMX PB數據的。 順便說一下,戴爾科技公司的客戶運行 PowerScale 陣列的規模比這大得多,但他們通常會產生單獨的集群,以減少潛在的停電衝擊區域。 這是極其罕見的。

PowerScale 可以在本地部署,也可以通過多雲或原生雲集成選項擴展到多個公共雲中,客戶可以在其中利用額外的計算或其他原生雲服務。

性能是公司需要考慮的規模的另一部分,當系統通過 GPU 加速時,這一點尤為重要。 從 GPU 計算的早期開始,NVIDIA 就一直致力於讓 CPU 及其內存不受阻礙,並防止其成為阻止 GPU 在運行模擬或構建模型或構建模型時共享數據 (GPUDirect) 的瓶頸。這可以防止 GPU 以閃電般的速度訪問存儲(GPUDirect 存儲)。

如果外部存儲對於此類 GPU 加速系統是必需的——具有四到八個 GPU 的服務器不可能有足夠的存儲空間來保存大多數 HPC 和 AI 應用程序處理的數據集——那麼很明顯,無論存儲是什麼,都必須說話GPUDirect 存儲并快速說明。

之前的記錄保持者是 Pavilion Data,它測試了 2.2 PB 存儲陣列和 能夠在文件模式下以 100 GB/秒的速度將數據讀入基於新“安培”A100 GPU 的 DGX-A191 系統. 在實驗室中,Dell Technologies 正在對其在 PowerScale 陣列上運行的 GPUDirect Storage 基準測試進行收尾工作,並表示它可以將性能顯著提高,至少達到 252 GB/秒。 而且,由於 PowerScale 可以在單個命名空間中擴展到 252 個節點,因此它不會就此止步,並且可以根據需要進行擴展。

“關鍵是,我們知道如何針對這些 GPU 計算環境進行優化,”Henderson 說。 以下是關於運行 AI 工作負載的 GPU 加速系統的性能以及 PowerScale 存儲如何執行的更一般的說明:

在構建混合 CPU-GPU 系統時,需要考慮對各種系統的廣泛支持。 共享存儲的本質就是共享,重要的是能夠將共享存儲上的數據用於其他應用程序。 PowerScale 陣列已與 250 多個應用程序集成,並被認證為支持多種系統。 這是 Isilon 和 PowerScale 存儲在全球擁有 15,000 多個客戶的原因之一。

高性能計算不僅僅是性能,尤其是在資源受限且對系統和數據的控制絕對至關重要的企業環境中。 因此,在為 GPU 加速系統構建存儲架構時必須考慮的下一件事是存儲管理。

工具化

在這方面,戴爾科技公司為聚會帶來了許多工具。 第一個是 智商,它對 PowerScale 及其前身 Isilon 存儲陣列進行非常具體和詳細的存儲監控和報告。

另一個工具叫做 雲智商,它使用機器學習和預測分析技術來監控和幫助管理所有 Dell Technologies 基礎架構產品,包括 PowerStore、PowerMax、PowerScale、PowerVault、Unity XT、XtremIO 和 SC 系列,以及 PowerEdge 服務器以及融合和超融合VxBlock、VxRail 和 PowerFlex 等平台。

最後,有 數據智商,用於非結構化數據的存儲監控和數據集管理軟件,它提供跨 PowerScale、PowerMax 和 PowerStore 陣列的非結構化數據集的統一視圖以及來自大型公共雲的雲存儲。 DataIQ 不僅會向您展示非結構化數據集,還會跟踪它們的使用方式並將它們移動到最合適的存儲中,例如,本地文件系統或基於雲的對象存儲。

最後一個考慮因素是可靠性和數據保護,它們在任何企業級存儲平台中都是相輔相成的。 PowerScale 陣列在 Isilon 及其 OneFS 文件系統中有其傳統,該系統已經存在很長時間,並且在企業、政府和學術 HPC 機構中得到了二十年的信任。 OneFS 及其底層 PowerScale 硬件旨在提供高達 99.9999% 的可用性,而大多數處理非結構化數據的雲存儲服務幸運地擁有 99.9% 可用性的服務協議。 前者每年有 31 秒的停機時間,而後者則有 46 小時 XNUMX 分鐘的離線時間。

此外,PowerScale 旨在提供良好的性能並保持數據訪問,即使存儲集群中的某些節點在組件故障後因維護或自我修復而停機。 (畢竟,所有 IT 設備都無法避免組件故障。)

但是,如今還有另一種彈性變得越來越重要:從勒索軟件攻擊中恢復。

“我們有 API 集成的勒索軟件保護 功率秤 這將檢測 OneFS 文件系統上的可疑行為,並向管理員發出警報,”Henderson 說。 “而且我們的許多客戶正在實施物理上獨立的、氣隙式集群設置,以維護他們所有數據的單獨副本。 如果發生網絡攻擊,您只需關閉生產存儲並擁有您的數據,而無需嘗試從備份或檔案中恢復,這可能需要數天或數週的時間——尤其是當您從雲存檔中恢復時。 一旦您談論 PB 級數據,這可能需要數月時間。

“我們可以以非常非常快的存儲複製速度快速恢復。 您還可以選擇在多雲環境中託管勒索軟件防御者解決方案,您可以利用公共雲從網絡事件中恢復數據。”

由戴爾贊助。

柏拉圖重新構想的 Web3。 數據智能放大。
單擊此處訪問。

來源:https://go.theregister.com/feed/www.theregister.com/2021/10/12/data_first_dell/

現貨圖片

最新情報

現貨圖片