和风网标志

采访 Nvidia 软件主管 Kari Briski

日期:

专属采访 Nvidia 的 GPU 技术大会于上周结束,会上介绍了该公司的 Blackwell 芯片和大肆宣传的人工智能奇迹,以及所有昂贵的 GPU 硬件。

该公司的股价正不断刷新历史新高,因为机器学习模型实现的自动化可以使许多创造性工作变得更快,甚至更好。

这还有待市场检验。

乔治·桑塔亚纳曾经 :“那些不记得过去的人注定要重蹈覆辙。”这是经常被重复的一句话。然而,对过去事物的记忆并没有真正使人工智能模型与众不同。他们可以记住过去,但他们仍然注定要按需重复,有时甚至是错误的。

即便如此,许多人仍然坚信全能的人工智能,尤其是那些销售人工智能硬件或云服务的人。 英伟达等公司对此下了大注。 所以 注册 短暂参观了 GPU 会议,看看到底有什么大惊小怪的。这当然与周四展厅内供应的柠檬棒无关,其中许多柠檬棒在展厅的垃圾箱中未完成首次公开募股就结束了。

对话更有吸引力 注册 与 Nvidia 人工智能和 HPC 软件开发套件产品管理副总裁 Kari Briski 进行了交流。她负责公司基础模型、库、SDK 以及现在处理训练和推理的微服务的软件产品管理,比如新发布的 净息差 微服务和更完善的服务 尼莫 部署框架。

注册:公司将如何在云端、本地使用这些微服务?

布里斯基:这实际上就是我们构建 NIM 的美妙之处。说“NIM”有点有趣。但我们很久以前就开始了这段旅程。自从我开始工作以来,我们一直在从事推理工作——我认为 1.0 年我开始工作的时候是 TensorRT 2016。

多年来,我们一直在发展我们的推理堆栈,更多地了解每种不同类型的工作负载,从计算机视觉和深度推荐系统和语音、自动语音识别和语音合成以及现在的大型语言模型开始。这是一个真正以开发人员为中心的堆栈。现在,企业[已经看到了] OpenAI 和 ChatGPT,他们了解需要让这些大型语言模型在其企业数据旁边或在企业应用程序中运行。

一般的云服务提供商,对于他们的托管服务,他们有数百名工程师致力于推理、优化技术。企业做不到这一点。他们需要立即实现价值。这就是为什么我们通过 TensorRT、大型语言模型、Triton 推理服务器、标准 API 和健康检查封装了多年来学到的所有内容。 [想法是]能够封装所有这些,以便您可以在五分钟内从零获得大型语言模型端点。

[关于本地数据中心与云数据中心],我们的很多客户都是混合云。他们更喜欢计算。因此,他们不必将数据发送到托管服务,而是可以在靠近数据的地方运行微服务,并且可以在任何需要的地方运行它。

注册:就编程语言而言,Nvidia 的 AI 软件堆栈是什么样的?仍然主要是 CUDA、Python、C 和 C++ 吗?您是否在其他地方寻求更快的速度和效率?

布里斯基:我们一直在探索开发人员使用的任何地方。这一直是我们的关键。自从我加入 Nvidia 以来,我就一直致力于加速数学库的工作。首先,您必须使用 CUDA 进行编程才能获得并行性。然后我们有了 C API。我们有一个 Python API。因此,无论开发人员在哪里,都可以使用该平台。现在,开发人员只想访问一个非常简单的 API 端点,例如使用curl命令或Python命令或类似的命令。所以它必须非常简单,因为这就是我们今天与开发人员会面的地方。

注册:CUDA 显然在提高 GPU 计算效率方面发挥着巨大作用。 Nvidia 正在采取哪些措施来推进 CUDA?

布里斯基:CUDA 是我们所有 GPU 的基础。它是一款支持 CUDA、CUDA 可编程的 GPU。几年前,我们将其称为 CUDA-X,因为您拥有这些特定于领域的语言。因此,如果您有医学成像[应用程序],那么您就拥有了 铜CIM。如果您有自动语音识别功能,那么最后您就会有一个 CUDA 加速波束搜索解码器。因此,对于 CUDA 加速的每种不同类型的工作负载,都有所有这些特定的东西。多年来我们已经建立了所有这些专业图书馆,例如 立方体立方体语言和 cu-这个-那个。所有这些 CUDA 库都是我们多年来构建的基础,现在我们是在此基础上进行构建的。

注册:Nvidia 在设计软件和硬件时如何考虑成本因素?像 Nvidia AI Enterprise 这样的产品,每个 GPU 每年的售价为 4,500 美元,这是相当可观的。

布里斯基:首先,对于较小的公司,我们总是有 盗梦空间 程序。我们始终与客户合作——90天免费试用,对您来说真的有价值吗?是不是真的值得吗?然后,为了降低您购买时的成本,我们一直在优化我们的软件。因此,如果您购买每个 CPU 每年每个许可证 4,500 美元,并且您在 A100 上运行,并且明天在 H100 上运行,那么价格是相同的 – 您的成本已经下降(相对于您的吞吐量)。因此,我们总是将这些优化以及总拥有成本和性能重新构建到软件中。

当我们考虑训练和推理时,训练确实需要多一点,但我们有这些自动配置器能够说,“你有多少数据?您需要多少计算能力?你想要多长时间?”因此,您可以使用更小的计算资源,但训练模型可能需要更长的时间……您想在一周内训练它吗?或者你想在一天内训练它吗?所以你可以做出这些权衡。

注册:就目前的问题而言,您有什么特别想解决的问题或者有什么技术挑战是您想克服的吗?

布里斯基:现在是事件驱动的 RAG [这是一种利用从外部来源获取的数据来增强人工智能模型的方法]。很多企业只是想用经典的提示来生成答案。但实际上,我们想要做的是将所有这些检索增强生成系统[链接]在一起。因为如果你想到你自己,以及你可能想要完成的任务:“哦,我得去和数据库团队谈谈。该数据库团队必须与 Tableau 团队交谈。他们得给我做一个仪表板,”所有这些事情都必须发生才能真正完成任务。这是一种事件驱动的 RAG。我不会说 RAG 与 RAG 交谈,但本质上就是这样——特工离开并执行大量工作然后回来。我们正处于这一点的风口浪尖。所以我认为这是我对 2024 年看到的事情感到非常兴奋的事情。

注册:Nvidia 正在测试自己的 AI 吗?您发现人工智能在内部有用吗?

布里斯基:实际上,我们去年就开始了,因为 2023 年是探索之年,我发现 Nvidia 内部有 150 个团队 - 可能还会更多 - 我们试图说,你们如何使用我们的工具,什么样的工具用例,我们开始将所有的学习内容结合起来,就像一千朵鲜花盛开一样,我们将他们所有的学习内容合并到一个存储库中的最佳实践中。这实际上就是我们所说的发布的 生成式人工智能示例 在 GitHub 上,因为我们只是想将所有最佳实践集中在一处。

这就是我们在结构上所做的事情。但作为一个明确的例子,我认为我们写了一篇非常伟大的论文,名为 芯片NeMo,这实际上都是关于我们的 EDA、VLSI 设计团队,以及他们如何采用基础模型并根据我们的专有数据对其进行训练。我们有自己的 VLSI 编码语言。因此,他们是编码副驾驶(开源代码生成模型),能够生成我们的专有语言,并帮助不太了解我们的 VLSI 设计芯片编写代码的新工程师提高工作效率。

这引起了每位客户的共鸣。因此,如果您与 SAP 交谈,就会发现他们有 BOP [缺货处理],这就像他们数据库的专有 SQL。我与其他三个拥有不同专有语言的客户进行了交谈——甚至 SQL 也有数百种方言。因此,能够进行代码生成并不是 RAG 可以立即解决的用例。是的,RAG 可以帮助检索文档和一些代码片段,但除非经过训练可以用该语言生成标记,否则它不能只是编写代码。

注册:当您查看大型语言模型以及它们与应用程序链接在一起的方式时,您是否考虑可能引入的延迟以及如何处理它?有时,简单地对决策树进行硬编码似乎更有意义吗?

布里斯基:你是对的,当你问一个特定的问题或提示时,即使只是一个问题,也可能有五到七个模型已经启动,这样你就可以得到及时的重写、护栏、检索器和重新排名然后是发电机。这就是 NIM 如此重要的原因,因为我们已经针对延迟进行了优化。

这也是我们提供不同版本的基础模型的原因,因为您可能有一个 SLM,一种更适合特定任务集的小型语言模型,然后您最终希望使用更大的模型以获得更高的准确性。但是,将所有这些链接起来以适应您的延迟窗口是我们多年来一直为许多超大规模或托管服务解决的问题。他们有这些延迟窗口,很多时候当你提出问题或进行搜索时,他们实际上会多次将问题外包出去。因此,他们有很多竞争条件:“总响应的每一小部分的延迟窗口是多少?”所以是的,我们一直在关注这一点。

关于硬编码的观点,我今天刚刚与一位客户讨论过。我们远远超出了硬编码的范围……您可以使用对话管理器并使用 if-then-else。 [但是]管理数千条规则确实非常不可能。这就是为什么我们喜欢护栏之类的东西,因为护栏代表了经典对话管理器的一种替代品。不要说“不要谈论棒球,不要谈论垒球,不要谈论足球”,然后将它们列出来,你可以说“不要谈论体育”。然后法学硕士知道什么是运动。节省时间并且能够在以后管理该代码要好得多。 ®

现货图片

最新情报

现货图片