和风网标志

微软加强 Azure AI 防御

日期:

微软宣布了 Azure AI Studio 中的几项新功能,该公司表示,这些功能应该可以帮助开发人员构建更可靠、更有弹性的生成式 AI 应用程序,以抵御恶意模型操纵和其他新兴威胁。

在 29 月 XNUMX 日的博客文章中,微软负责任人工智能首席产品官 Sarah Bird 指出,人们越来越担心威胁行为者使用 即时注入攻击 让人工智能系统以危险和意想不到的方式运行,作为新工具的主要驱动因素。

“组织也 关心质量和可靠性,” 鸟说。 “他们希望确保他们的人工智能系统不会产生错误或添加应用程序数据源中未经证实的信息,这可能会削弱用户的信任。”

Azure 人工智能工作室 是一个托管平台,组织可以使用它来构建基于自己的数据的自定义人工智能助手、副驾驶、机器人、搜索工具和其他应用程序。该平台于 2023 年 XNUMX 月宣布,托管 Microsoft 的机器学习模型以及来自 OpenAI 等其他多个来源的模型。 Meta、Huging Face 和 Nvidia。它允许开发人员快速将多模式功能和负责任的人工智能功能集成到他们的模型中。

亚马逊和谷歌等其他主要参与者在过去一年里纷纷向市场推出类似产品,以利用全球对人工智能技术日益高涨的兴趣。 IBM 最近委托的一项研究发现 42%的组织 超过 1,000 名员工已经以某种方式积极使用人工智能,其中许多人计划在未来几年增加和加速对该技术的投资。并不是所有的人 我们告诉IT 事先了解他们的人工智能使用情况。

防范即时工程

Microsoft 已添加或即将添加到 Azure AI Studio 的五项新功能是: Prompt Shields;接地检测;安全系统消息;安全评估;以及风险和安全监控。这些功能旨在解决研究人员最近发现并在日常工作中继续发现的有关使用大型语言模型和生成式人工智能工具的一些重大挑战。

快速护盾 例如,微软针对所谓的间接即时攻击和越狱的缓解措施。该功能建立在 Azure AI Studio 中现有的针对越狱风险的缓解措施的基础上。在 即时工程攻击,对手使用看似无害且没有明显有害的提示来尝试引导人工智能模型产生有害和不良反应。即时工程是越来越多的攻击中最危险的一种,这些攻击试图 越狱AI模型 或者让它们的行为方式与开发人员可能内置的任何过滤器和约束不一致。  

研究人员最近展示了对手如何进行即时工程攻击,以获取生成式人工智能模型 泄露他们的训练数据,吐出个人信息, 产生错误信息 以及潜在有害的内容,例如如何对汽车进行热接线的说明。

借助 Prompt Shields,开发人员可以将功能集成到他们的模型中,帮助区分有效和潜在不可信的系统输入;设置分隔符以帮助标记输入文本的开头和结尾,并使用数据标记来标记输入文本。据微软称,Prompt Shields 目前在 Azure AI 内容安全中以预览模式提供,并将很快全面上市。

模特幻觉和有害内容的缓解措施

与此同时,通过接地检测,微软在 Azure AI Studio 中添加了一项功能,据称可以帮助开发人员降低人工智能模型“产生幻觉”的风险。模型幻觉是指人工智能模型生成看似合理但完全是虚构的结果的倾向,而不是基于或基于训练数据。如果一个组织将输出视为事实并以某种方式采取行动,那么法学硕士的幻觉可能会产生很大的问题。例如,在软件开发环境中,法学硕士幻觉可能会导致开发人员将易受攻击的代码引入到他们的应用程序中。

Azure AI Studio 的新功能 接地检测 能力基本上是帮助更可靠、更大规模地检测潜在的不接地的生成人工智能输出。其目标是为开发人员提供一种方法,在将模型部署到产品中之前,根据微软所谓的基础指标来测试他们的人工智能模型。该功能还突出显示了 LLM 输出中潜在的不可靠陈述,因此用户知道在使用输出之前要对其进行事实检查。据微软称,接地检测尚不可用,但应该在不久的将来可用。

新的 系统消息框架 为开发人员提供了一种方法来清楚地定义其模型的功能、其配置文件以及特定环境中的限制。开发人员可以使用该功能定义输出的格式并提供预期行为的示例,以便用户更容易检测与预期行为的偏差。这是另一项尚未推出但应该很快就会推出的新功能。

Azure AI Studio 最新发布 安全评估 能力及其 风险与安全监控 功能目前均处于预览状态。组织可以使用前者来评估其 LLM 模型对越狱攻击和生成意外内容的脆弱性。风险和安全监控功能使开发人员能够检测有问题并可能触发幻觉或意外内容的模型输入,以便他们可以实施缓解措施。

“生成式人工智能可以成为每个部门、公司和行业的力量倍增器,”微软的伯德说。 “与此同时,基础模型给安全和保障带来了新的挑战,需要新颖的缓解措施和持续学习。”

现货图片

最新情报

现货图片