和风网标志

机器学习模型监控清单:要跟踪的7件事

日期:

银博客机器学习模型监控清单:要跟踪的7件事

一旦在生产环境中部署了机器学习模型,就需要确保其性能。 在本文中,我们建议如何监视模型和使用的开源工具。


By 艾默里·德拉(Emeli Dral),首席技术官,Evidently AI& 埃琳娜·萨穆洛娃(Elena Samuylova),Evidently AI的首席执行官兼联合创始人

建立机器学习模型并不容易。 在生产中部署服务甚至更加困难。 但是,即使您设法将所有管道组合在一起,事情也不会止于此。

使用该模型后,我们立即必须考虑平稳地运行它。 毕竟,它现在正在提供商业价值! 对模型性能的任何破坏都直接转化为实际业务损失。

我们需要确保模型能够交付。 不仅作为返回API响应的软件,而且作为我们可以信赖的机器学习系统,它可以做出决定。

这意味着我们需要监视我们的模型。 还有更多需要寻找的东西!

图片
 

如果生产中的机器学习使您措手不及,请查看以下清单,以备不时之需。

 
1.服务健康

机器学习服务仍然是一项服务。 您的公司可能已经建立了一些可以重用的软件监视过程。 如果模型实时运行,则需要适当的警报和负责任的人员随时待命。

即使仅处理批处理模型,也不要例外! 我们仍然需要跟踪标准的健康指标,例如内存利用率,CPU负载等。

我们的目标是确保服务正常运行,并遵守必要的约束条件,例如响应速度。

一个开源工具来检查: 格拉法纳.

 
2.数据质量和完整性

机器学习模型有问题吗? 在大多数情况下, 数据是罪魁祸首.

上游管道和模型中断。 用户进行未通知的架构更改。 数据可能在源头消失,物理传感器发生故障。 清单继续。

因此,至关重要的是验证输入数据是否符合我们的期望。 这些检查可能包括范围合规性,数据分布,特征统计信息,相关性或我们认为对我们的数据集“正常”的任何行为。

我们的目标是确认我们正在提供模型可以处理的数据。 在返回不可靠的响应之前。

一个开源工具来检查: 厚望.

 
3.数据与目标漂移

事情会改变的。 即使我们处理非常稳定的流程。 几乎每个机器学习模型都具有这种不便的特征:它将随着时间的流逝而退化。

我们可能会遇到 数据漂移 当模型收到训练中未看到的数据时。 想象一下来自不同年龄段,营销渠道或地理区域的用户。

如果现实世界的模式发生变化,那么概念漂移就会开始。考虑一下像全球大流行这样影响所有客户行为的偶然事件。 或市场上竞争激烈的新产品提供免费的套餐。 它改变了用户对您的营销活动的反应。

两种漂移的最终衡量标准是模型质量的下降。 但是有时候,尚不知道实际值,因此我们无法直接进行计算。 在这种情况下,需要跟踪领先的指标。 我们可以监视输入数据或目标函数的属性是否已更改。

图片
 

例如,您可以跟踪关键模型特征和模型预测的分布。 然后,如果它们与过去的时间段明显不同,则触发警报。

我们的目标是尽早收到有关世界或数据已发生变化的信号,现在是时候更新我们的模型了。

一个开源工具来检查: 明显地.

 
4.模型性能

知道模型是否运作良好的最直接方法是将预测与实际值进行对比。 您可以在模型训练阶段中使用相同的指标,例如用于分类的Precision / Recall,用于回归的RMSE,等等。 如果数据质量或实际模式发生问题,我们将看到指标下降。

这里有一些警告。

首先,地面真相或实际标签往往会有所延迟。 例如,如果您预测的时间很长,或者数据传递时滞。 有时,您需要付出额外的努力来标记新数据,以检查您的预测是否正确。 在这种情况下,首先跟踪数据和目标漂移作为预警是很有意义的。

其次,不仅需要跟踪模型质量,还需要跟踪相关的业务KPI。 ROC AUC的减少并没有直接说明它对营销转换的影响有多大。 将模型质量与业务指标联系起来或找到一些可解释的代理是至关重要的。

第三,您的质量指标应适合用例。 例如,如果您的班级不平衡,那么准确度指标就远非理想。 对于回归问题,您可能会在意错误符号。 因此,您不仅应该跟踪绝对值,还应该跟踪错误分布。 区分偶然的异常值和实际的衰减值也很重要。

因此,请明智地选择指标!

图片
 

我们的目标是跟踪模型达到目标的效果以及出现问题时如何进行调试。

一个开源工具来检查: 明显地.

 
5.分部表现

对于许多型号,上面描述的监视设置就足够了。 但是,如果您处理更关键的用例,则有更多项目需要检查。

例如,该模型在哪里犯更多错误,在哪里最有效?

您可能已经知道要跟踪的某些特定细分市场:例如高级客户的模型准确性与总体基础的准确性。 它仅需要针对您定义的细分内的对象计算的自定义质量指标。

在其他情况下,主动搜索性能低下的细分是有意义的。 想象一下,您的房地产定价模型始终会在特定地理区域内给出高于实际报价的报价。 这是您要注意的事情!

根据用例,我们可以通过在模型输出的顶部添加后处理或业务逻辑来解决它。 或通过重建模型来解决业绩不佳的细分市场。

图片
 

我们的目标是超越综合性能,并了解特定数据切片上的模型质量。

 
6.偏见/公平

当涉及金融,医疗保健,教育以及其他可能对模型决策产生重大影响的领域时,我们需要更加仔细地审查我们的模型。

例如,基于不同人口统计数据在训练数据中的表示,模型的性能可能会有所不同。 模型创建者需要意识到这种影响,并与监管机构和利益相关者一起拥有减轻不公平现象的工具。

为此,我们需要跟踪合适的指标,例如准确率中的奇偶校验。 它适用于模型验证和持续的生产监控。 因此,仪表板还有更多指标!

我们的目标是确保对所有子群体的公平对待并跟踪合规性。

一个开源工具来检查: 公平学习.

 
7.离群值

我们知道模型会出错。 在某些用例中,例如广告定位,我们可能不在乎单个输入是奇怪还是正常。 只要它们不构成有意义的部分,模型就将继续失败!

在其他应用程序中,我们可能想知道每种情况。 为了使错误最小化,我们可以设计一组规则来处理异常值。 例如,将它们发送给人工审核,而不是自动做出决定。 在这种情况下,我们需要一种方法来相应地检测和标记它们。

我们的目标是在模型预测可能不可靠的地方标记异常数据输入。

一个开源工具来检查: 塞尔登·阿里比(Delect)

图片
 

监视听起来很无聊。 但是,使机器学习在现实世界中起作用至关重要。 不要等待模型无法创建您的第一个仪表板!

 
艾默里·德拉(Emeli Dral) 是Evidently AI的联合创始人兼CTO,她创建了用于分析和监视ML模型的工具。 此前,她与人共同创立了一家工业AI初创公司,并在Yandex Data Factory担任首席数据科学家。 她是Coursera的机器学习和数据分析课程的合著者,有超过100,000名学生。

埃琳娜·萨穆洛娃(Elena Samuylova) 是Evidently AI的联合创始人兼首席执行官。 此前,她与他人共同创立了一家工业AI初创公司,并在Yandex Data Factory领导了业务开发。 自2014年以来,她与从制造业到零售业的公司合作,提供基于ML的解决方案。 2018年,埃琳娜(Elena)被《产品管理节》(Product Management Festival)评为``欧洲产品女性50强''。

相关新闻:

Coinsmart。 欧罗巴的BesteBitcoin-Börse
资料来源:https://www.kdnuggets.com/2021/03/machine-learning-model-monitoring-checklist.html

现货图片

最新情报

现货图片