和风网标志

内存有限的高效 LLM 推理 (Apple)

日期:

苹果公司的研究人员发表了一篇题为“LLM in a flash: Efficient Large Language Model Inference with Limited Memory”的技术论文。

摘要:

“大型语言模型 (LLM) 是现代自然语言处理的核心,可在各种任务中提供卓越的性能。然而,它们密集的计算和内存需求带来了挑战,特别是对于 DRAM 容量有限的设备。本文通过将模型参数存储在闪存上,但按需将它们传送到 DRAM,解决了高效运行超出可用 DRAM 容量的 LLM 的挑战。我们的方法涉及构建一个与闪存行为相协调的推理成本模型,指导我们在两个关键领域进行优化:减少从闪存传输的数据量以及以更大、更连续的块读取数据。在这个基于闪存的框架中,我们介绍了两种主要技术。首先,“窗口化”通过重用先前激活的神经元来战略性地减少数据传输,其次,针对闪存的顺序数据访问优势定制的“行列捆绑”增加了从闪存读取的数据块的大小。这些方法共同支持运行高达可用 DRAM 大小两倍的模型,与 CPU 和 GPU 中的简单加载方法相比,推理速度分别提高了 4-5 倍和 20-25 倍。我们将稀疏性意识、上下文自适应加载和面向硬件的设计集成在一起,为在内存有限的设备上有效推理 LLM 铺平了道路。”

找出 技术论文在这里。 2023 年 XNUMX 月出版(预印本)。

Alizadeh、Keivan、Iman Mirzadeh、Dmitry Belenko、Karen Khatamifard、Minsik Cho、Carlo C. Del Mundo、Mohammad Rastegari 和 Mehrdad Farajtabar。 “法学硕士瞬间:有限内存下的高效大型语言模型推理。” arXiv 预印本 arXiv:2312.11514 (2023)。

延伸阅读
人工智能竞赛到边缘
随着人工智能扩展到新的应用程序,推理和一些训练正在被推向更小的设备。
AI 工作负载的处理器分区
通用处理和缺乏灵活性对于 AI/ML 工作负载来说远非理想。

现货图片

最新情报

现货图片