和风网标志

边缘人工智能:加速智能的内存和存储的未来 | IoT Now 新闻与报告

日期:

赞助文章

人工智能在工业中的广泛使用正在加速更复杂的方法,包括机器学习 (ML)、深度学习甚至大型语言模型。这些进步让我们得以一睹预计在边缘使用的大量数据。尽管目前的重点是如何加速神经网络运行,但美光科技致力于制造针对边缘人工智能而优化的内存和存储。

什么是合成数据?

IDC 预测 到 2025 年,将有 175 泽字节 (1 ZB = 1 TB)全球生成的新数据。这些数量很难理解,但人工智能的进步将继续挑战数据匮乏系统的极限。

事实上,不断增长的人工智能模型已经被直接测量或物理图像获得的大量真实物理数据所抑制。如果您有 10,000 张现成的橙子图像样本,那么识别橙子就很容易了。但是,如果您需要比较特定的场景(例如,随机人群与有组织的游行或烤饼干与完美饼干中的异常情况),则很难确认准确的结果,除非您拥有所有变体样本来创建基线模型。

业界越来越多地使用 综合数据。合成数据是根据模拟模型人工生成的,例如,提供同一图像的统计现实。这种方法在工业视觉系统中尤其如此,其中物理图像的基线是唯一的,并且在网络上找不到足够的“小部件”来提供有效的模型表示。

资料来源:“忘记您的真实数据 - 合成数据是人工智能的未来”,Maverick Research,2021 年,通过“什么是合成数据”,Gerard Andrews,NVIDIA,2021 年。

当然,挑战在于这些新形式的数据将驻留在哪里。当然,创建的任何新数据集都必须存储在云中,或者为了获得更独特的表示形式,必须存储在更靠近需要分析数据的地方(边缘)。

模型复杂性和记忆墙

在算法效率和人工智能模型性能之间找到最佳平衡是一项复杂的任务,因为它取决于数据特征和数量、资源可用性、功耗、工作负载要求等因素。

人工智能模型是复杂的算法,可以通过参数数量来表征:参数数量越多,结果越准确。业界从通用基线模型开始,例如 ResNet50,因为它易于实现,并成为网络性能的基线。但该模型专注于有限的数据集和有限的应用程序。随着这些变压器的发展,我们看到变压器的发展增加了参数而不是增加了参数 内存带宽。这个结果是一个明显的压力:无论模型可以处理多少数据,我们都会受到模型和参数可用的内存和存储带宽的限制。

多年来最先进 (SOTA) 模型的参数数量以及 AI 加速器内存容量(绿点)的演变。资料来源:“人工智能和记忆墙”,Amir Gholami,Medium,2021 年。多年来最先进 (SOTA) 模型的参数数量以及 AI 加速器内存容量(绿点)的演变。资料来源:“人工智能和记忆墙”,Amir Gholami,Medium,2021 年。
多年来最先进 (SOTA) 模型的参数数量以及 AI 加速器内存容量(绿点)的演变。资料来源:“人工智能和记忆墙”,Amir Gholami,Medium,2021 年。

为了快速比较,我们可以看看嵌入式人工智能系统的性能 每秒将有操作 (最高额)。在这里我们看到,小于 100 TOPS 的 AI 边缘设备可能需要大约 225 GB/s,而高于 100 TOPS 的 AI 边缘设备可能需要 451 GB/s 的内存带宽(表 1)。

表 1 – 比较 AI 系统内存带宽要求和内存技术设备带宽。 (* INT8 Resnet 50 型号的 DLA 饱和所需的估计带宽)。微米。表 1 – 比较 AI 系统内存带宽要求和内存技术设备带宽。 (* INT8 Resnet 50 型号的 DLA 饱和所需的估计带宽)。微米。
表 1 – 比较 AI 系统内存带宽要求和内存技术设备带宽。 (* INT8 Resnet 50 型号的 DLA 饱和所需的估计带宽)。微米。

因此,优化该模型的一种方法是考虑性能更高、功耗最低的内存。

内存通过新标准的发展来跟上人工智能加速解决方案的步伐。例如,LPDDR4/4X(低功耗DDR4 DRAM)和LPDDR5/5X(低功耗DDR5 DRAM)解决方案比现有技术具有显着的性能改进。

LPDDR4 每个引脚的运行速度高达 4.2 GT/s(每个引脚每秒千兆传输),并支持高达 x64 的总线宽度。 LPDDR5X 的性能比 LPDDR50 提高了 4%,性能翻倍至每引脚 8.5GT/s。此外,LPDDR5 的电源效率比 LPDDR20X 高 4%(来源:Micron)。这些重大发展可以支持满足不断扩大的人工智能边缘用例的需求。

存储方面有哪些注意事项?

仅仅认为计算资源受到处理单元的原始 TOP 或内存架构的带宽的限制是不够的。随着机器学习模型变得越来越复杂,模型参数的数量也呈指数级增长。

机器学习模型和数据集不断扩展以实现更好的模型效率,因此还需要更高性能的嵌入式存储。典型的托管 NAND 解决方案(例如 5.1 Gb/s 的 e.MMC 3.2)不仅非常适合代码调出,而且非常适合远程数据存储。此外,UFS 3.1 等解决方案的运行速度可以提高七倍,达到 23.2 Gb/s,以支持更复杂的模型。

新架构还将通常属于云或 IT 基础设施的功能推向边缘。例如,边缘解决方案实施一个安全层,在受限操作数据和 IT/云域之间提供气隙。边缘人工智能还支持智能自动化,例如分类、标记和检索存储的数据。

支持 3D TLC NAND 的 NVMe SSD 等内存存储开发为各种边缘工作负载提供高性能。例如,美光的 7450 NVMe SSD 采用 176 层 NAND 技术,非常适合大多数边缘和数据中心工作负载。具有 2 毫秒的服务质量 (QoS) 延迟,非常适合 SQL Server 平台的性能要求。它还提供 FIPS 140-3 2级TAA 合规性 满足美国联邦政府采购要求。

不断发展的人工智能边缘处理器生态系统

Allied Market Research 估计,到 9.6 年,AI 边缘处理器市场将增长至 2030 亿美元。 4 但有趣的是,这批新的人工智能处理器初创企业正在开发 ASIC 和专有 ASSP,以适应更多空间和功耗受限的边缘应用。在内存和存储解决方案方面,这些新芯片组还需要在性能和功耗之间进行权衡。

此外,我们看到 AI 芯片组供应商开发了企业和数据中心标准外形 (EDSFF) 加速卡,这些加速卡可以安装在 1U 解决方案中,并与可适应加速任何工作负载(从 AI/ML 推理到视频处理)的存储服务器一起放置— 使用相同的模块。

如何寻找合适的内存和存储合作伙伴?

人工智能不再是炒作,而是在所有垂直领域实施的现实。在一项研究中, 89%的工业 已经制定或将在未来两年内制定围绕边缘人工智能的战略。5

但实施人工智能并不是一项简单的任务,正确的技术和组件将发挥重要作用。美光科技在内存和存储领域的最新技术组合,凭借我们的技术为工业客户引领潮流 智商价值主张。如果您正在设计 AI 边缘系统,请让美光帮助您以前所未有的速度将产品推向市场。请联系您当地的美光代表或美光产品经销商(www.micron.com).

在下面或通过X评论这篇文章: @IoTNow_

现货图片

最新情报

现货图片