所以,明智地选择你的指标!
我们的目标是跟踪模型在多大程度上满足了其目的,以及在出现问题时如何调试它。
开源工具:Evidently
5. 分段性能表现
对于许多模型,上述监控设置就足够了。 但是,如果您处理更关键的用户场景,还有更多的项目要检查。
例如,模型在哪里犯了更多的错误,它在哪里工作得最好?
您可能已经知道要跟踪的一些特定分段(segments),例如:您的高级客户与整体基数的模型准确性。 它需要一个自定义质量指标,仅为您定义的段内的对象计算。
在其他情况下,主动搜索性能低下的段是有意义的。想象一下,您的房地产定价模型始终建议特定地理区域的报价高于实际报价。这是您要注意的事情!
根据场景,我们可以通过在模型输出之上添加后处理或业务逻辑来解决它。 或者通过重建模型来解决表现不佳的段。
我们的目标是超越总体性能并了解特定数据切片的模型质量。
6. 偏见/公平
当涉及到金融、医疗保健、教育和其他模型决策可能产生严重影响的领域时,我们需要更仔细地审查我们的模型。
例如,模型性能可能会因不同人口群体在训练数据中的表现而异。 模型创建者需要意识到这种影响,并与监管机构和利益相关者一起拥有减轻不公平的工具。
为此,我们需要跟踪合适的指标,例如准确率中的奇偶校验。它适用于模型验证和持续的生产监控。因此,仪表板上还有一些指标!
我们的目标是确保公平对待所有子群体并跟踪合规性。
开源工具:Fairlearn
7.异常值
我们知道模型会出错。 在某些用户场景中,例如广告定位,我们可能不在乎个别输入是否显得奇怪或平常。 只要它们不构成有意义的部分,模型就会失败!
在其他应用程序中,我们可能想了解每个此类情况。 为了最大限度地减少错误,我们可以设计一组规则来处理异常值。 例如,将它们发送给人工审核,而不是自动做出决定。 在这种情况下,我们需要一种方法来相应地检测和标记它们。
我们的目标是标记模型预测可能不可信的异常数据输入。
开源工具:Seldon Alibi-Detect
监控听起来可能很无聊。 但是,让机器学习在现实世界中发挥作用至关重要。 不要等到模型失败时才创建第一个仪表板!
原文链接:A Machine Learning Model Monitoring Checklist: 7 Things to Track