内存有限的高效 LLM 推理 (Apple)

苹果公司的研究人员发表了一篇题为“LLM in a flash: Efficient Large Language Model Inference with Limited Memory”的技术论文。

摘要：

“大型语言模型 (LLM) 是现代自然语言处理的核心，可在各种任务中提供卓越的性能。然而，它们密集的计算和内存需求带来了挑战，特别是对于 DRAM 容量有限的设备。本文通过将模型参数存储在闪存上，但按需将它们传送到 DRAM，解决了高效运行超出可用 DRAM 容量的 LLM 的挑战。我们的方法涉及构建一个与闪存行为相协调的推理成本模型，指导我们在两个关键领域进行优化：减少从闪存传输的数据量以及以更大、更连续的块读取数据。在这个基于闪存的框架中，我们介绍了两种主要技术。首先，“窗口化”通过重用先前激活的神经元来战略性地减少数据传输，其次，针对闪存的顺序数据访问优势定制的“行列捆绑”增加了从闪存读取的数据块的大小。这些方法共同支持运行高达可用 DRAM 大小两倍的模型，与 CPU 和 GPU 中的简单加载方法相比，推理速度分别提高了 4-5 倍和 20-25 倍。我们将稀疏性意识、上下文自适应加载和面向硬件的设计集成在一起，为在内存有限的设备上有效推理 LLM 铺平了道路。”

找出技术论文在这里。 2023 年 XNUMX 月出版（预印本）。

Alizadeh、Keivan、Iman Mirzadeh、Dmitry Belenko、Karen Khatamifard、Minsik Cho、Carlo C. Del Mundo、Mohammad Rastegari 和 Mehrdad Farajtabar。 “法学硕士瞬间：有限内存下的高效大型语言模型推理。” arXiv 预印本 arXiv:2312.11514 (2023)。

延伸阅读
人工智能竞赛到边缘
随着人工智能扩展到新的应用程序，推理和一些训练正在被推向更小的设备。
AI 工作负载的处理器分区
通用处理和缺乏灵活性对于 AI/ML 工作负载来说远非理想。

SEO 支持的内容和 PR 分发。今天得到放大。
PlatoData.Network 垂直生成人工智能。赋予自己力量。访问这里。
柏拉图爱流。 Web3 智能。知识放大。访问这里。
柏拉图ESG。碳，清洁科技, 能源，环境，太阳能，废物管理。访问这里。
柏拉图健康。生物技术和临床试验情报。访问这里。
Sumber: https://semiengineering.com/efficient-llm-inference-with-limited-memory-apple/

生成数据智能

内存有限的高效 LLM 推理 (Apple)

摘要：

主页–众筹套件

您的孩子可能正在使用大麻的迹象

最新情报

《黎明杀机》8 周年庆典上宣布的一切 | XboxHub

2024 年 XNUMX 月的 Polaro 项目代码

《Valorant Holomoku》捆绑包：预计发布日期、皮肤等

英国销售排行榜：独立热门游戏《星海》跻身前十名

2024 年 XNUMX 月动物竞赛代码

FC 87 Ultimate Team 中最便宜的 24 级球员