和风网标志

为加速系统部署横向扩展文件存储时,将数据放在首位

日期:

赞助商 很容易在任何类型的高性能计算工作负载中花费大量时间来考虑计算和互连——并且很难不花同样多的时间来考虑支持该工作负载的存储。 考虑将提供给这些应用程序的数据的类型和数量尤为重要,因为这比任何其他因素更能决定该工作负载在满足组织需求方面的成败。

如今,在 IT 基础架构方面拥有“云优先”的心态很流行,但组织真正需要的是“数据优先”的态度,然后意识到云只是一种具有定价方案的部署模型,也许– 比许多组织习惯的更深的资源池。 但这些深水池是有代价的。 将数据移动到云中或在那里生成并保存在那里是相当便宜的; 然而,从云中移动数据以便在其他地方使用可能会非常昂贵。

新类别的 HPC 应用程序,例如大规模运行的机器学习训练和数据分析,往往以大型数据集为基础或创建大型数据集,因此在构建系统时,保持这种数据至上的态度非常重要。 您不想做的一件事是在概念证明和生产之间找出您拥有错误存储的某个地方——或者更糟糕的是,发现您的存储无法跟上新工作负载的数据生产并取得了巨大的成功。

Dell Technologies 非结构化数据存储产品营销总监 Brian Henderson 表示:“如果添加存储硬件作为快速解决方案,而没有针对当前和未来的需求制定周密的战略,则经常会出现问题。” “组织购买一些服务器,附加一些存储,启动项目,然后看看进展如何。 这种方法经常会导致规模问题、性能问题、数据共享问题。 这些组织需要的是灵活的横向扩展文件存储解决方案,使他们能够包含所有不同的数据并连接所有数据,以便利益相关者和应用程序都可以快速轻松地访问和共享这些数据。”

因此,在采购订单中确定计算和网络组件之前,考虑一些关键数据存储要求非常重要。

首先要考虑的是规模,您应该从一开始就假设规模,然后找到一个系统,它可以从小规模开始,但可以增长到足以容纳数据并为不同的系统和数据类型提供服务。

尽管可能依赖于内部存储或连接到系统或集群的大杂烩,但 HPC 和 AI 工作负载通常由 NVIDIA 的 GPU 加速。 最好假设计算、存储和网络必须随着工作负载和数据集的增长和激增而扩展。 有许多不同的增长向量需要考虑,忘记其中任何一个都可能导致容量和性能问题。

这个存储规模问题还有一个更微妙的因素需要考虑。 为 HPC 和 AI 系统存档数据。 HPC 应用程序采用少量初始条件并创建大规模模拟和可视化,以揭示现实世界的一些东西,而 AI 系统采用大量信息(通常是结构化和非结构化数据的混合)并将其提炼成一个模型,该模型可用于用于分析现实世界或对其做出反应。 出于业务原因以及数据治理和法规遵从性,必须保留这些初始数据集及其模型。

即使你想扔掉这些数据,你也不能扔掉

“即使您愿意,也不能丢弃这些数据,”戴尔科技公司非结构化数据解决方案团队人工智能和分析全球业务开发经理 Thomas Henson 说。 “无论是什么垂直行业——汽车、医疗保健、运输、金融服务——你都可能会发现算法存在缺陷,诉讼是一个问题。 您必须展示输入到算法中的数据,这些数据产生了有缺陷的结果或证明没有。 在某种程度上,该算法的价值在于输入它的数据。 而这只是一个小例子。”

因此,对于混合 CPU-GPU 系统,最好假设机器上的本地存储是不够的,并且需要能够保存大量非结构化数据的外部存储。 出于经济原因,由于 AI 和一些 HPC 项目仍处于概念验证阶段,因此从小规模开始并能够在独立向量上快速扩展容量和性能(如果需要)将非常有用。

运行 Dell Technologies 的 OneFS 文件系统的 PowerScale 全闪存阵列适合这种存储配置文件。 基本系统采用三节点配置,具有高达 11 TB 的原始存储和低于 250 位数的适中价格,并已在实验室中测试了最多 96 个节点的共享存储集群,最多可容纳 XNUMX PB数据的。 顺便说一下,戴尔科技公司的客户运行 PowerScale 阵列的规模比这大得多,但他们经常产生单独的集群,以减少潜在的停电爆炸区域。 这是极其罕见的。

PowerScale 可以在本地部署,也可以通过多云或原生云集成选项扩展到多个公共云中,客户可以在其中利用额外的计算或其他原生云服务。

性能是公司需要考虑的规模的另一部分,当系统通过 GPU 加速时,这一点尤为重要。 从 GPU 计算的早期开始,NVIDIA 就一直致力于将 CPU 及其内存排除在外,并防止其成为阻止 GPU 在运行模拟或构建模型时共享数据 (GPUDirect) 的瓶颈。这可以防止 GPU 以闪电般的速度访问存储(GPUDirect 存储)。

如果外部存储对于此类 GPU 加速系统是必需的——具有四到八个 GPU 的服务器不可能有足够的存储空间来保存大多数 HPC 和 AI 应用程序处理的数据集——那么很明显,无论存储是什么,都必须说话GPUDirect 存储并快速说明。

之前的记录保持者是 Pavilion Data,它测试了 2.2 PB 存储阵列和 能够在文件模式下以 100 GB/秒的速度将数据读入基于新“安培”A100 GPU 的 DGX-A191 系统. 在实验室中,Dell Technologies 正在对其在 PowerScale 阵列上运行的 GPUDirect Storage 基准测试进行收尾工作,并表示它可以将性能显着提高,至少达到 252 GB/秒。 而且,由于 PowerScale 可以在单个命名空间中扩展到 252 个节点,因此它不会就此止步,并且可以根据需要进行扩展。

“关键是,我们知道如何针对这些 GPU 计算环境进行优化,”Henderson 说。 以下是关于运行 AI 工作负载的 GPU 加速系统的性能以及 PowerScale 存储如何执行的更一般的说明:

在构建混合 CPU-GPU 系统时,需要考虑对各种系统的广泛支持。 共享存储的本质就是共享,重要的是能够将共享存储上的数据用于其他应用程序。 PowerScale 阵列已与 250 多个应用程序集成,并被认证为支持多种系统。 这是 Isilon 和 PowerScale 存储在全球拥有 15,000 多个客户的原因之一。

高性能计算不仅仅是性能,尤其是在资源受限且对系统和数据的控制绝对至关重要的企业环境中。 因此,在为 GPU 加速系统构建存储架构时必须考虑的下一件事是存储管理。

工具化

在这方面,戴尔科技公司为聚会带来了许多工具。 第一个是 智商,它为 PowerScale 及其前身 Isilon 存储阵列执行非常具体和详细的​​存储监控和报告。

另一个工具叫做 云智商,它使用机器学习和预测分析技术来监控和帮助管理所有 Dell Technologies 基础架构产品,包括 PowerStore、PowerMax、PowerScale、PowerVault、Unity XT、XtremIO 和 SC 系列,以及 PowerEdge 服务器以及融合和超融合VxBlock、VxRail 和 PowerFlex 等平台。

最后,有 数据智商,用于非结构化数据的存储监控和数据集管理软件,它提供跨 PowerScale、PowerMax 和 PowerStore 阵列的非结构化数据集的统一视图以及来自大型公共云的云存储。 DataIQ 不仅会向您展示非结构化数据集,还会跟踪它们的使用方式并将它们移动到最合适的存储,例如,本地文件系统或基于云的对象存储。

最后一个考虑因素是可靠性和数据保护,它们在任何企业级存储平台中都是相辅相成的。 PowerScale 阵列在 Isilon 及其 OneFS 文件系统中有其传统,该系统已经存在很长时间,并且在企业、政府和学术 HPC 机构中得到了二十年的信任。 OneFS 及其底层 PowerScale 硬件旨在提供高达 99.9999% 的可用性,而大多数处理非结构化数据的云存储服务幸运地拥有 99.9% 可用性的服务协议。 前者每年有 31 秒的停机时间,而后者则有 46 小时 XNUMX 分钟的离线时间。

此外,PowerScale 旨在提供良好的性能并保持数据访问,即使存储集群中的某些节点在组件故障后因维护或自我修复而停机。 (毕竟,所有 IT 设备都无法避免组件故障。)

但是,如今还有另一种弹性变得越来越重要:从勒索软件攻击中恢复。

“我们有 API 集成的勒索软件保护 功率秤 这将检测 OneFS 文件系统上的可疑行为,并向管理员发出警报,”Henderson 说。 “而且我们的许多客户正在实施一个物理上独立的、气隙式集群设置,以维护他们所有数据的单独副本。 如果发生网络攻击,您只需关闭生产存储并拥有您的数据,而无需尝试从备份或档案中恢复,这可能需要数天或数周的时间——尤其是当您从云存档中恢复时。 一旦您谈论 PB 级数据,这可能需要数月时间。

“我们可以以非常非常快的存储复制速度快速恢复。 您还可以选择在多云环境中托管勒索软件防御者解决方案,您可以利用公共云从网络事件中恢复数据。”

由戴尔赞助。

柏拉图重新构想的 Web3。 数据智能放大。
单击此处访问。

来源:https://go.theregister.com/feed/www.theregister.com/2021/10/12/data_first_dell/

现货图片

最新情报

现货图片

在线答疑

你好呀! 我怎么帮你?