• 所以,明智地选择你的指标!

    我们的目标是跟踪模型在多大程度上满足了其目的,以及在出现问题时如何调试它。

    开源工具:Evidently

    5. 分段性能表现

    对于许多模型,上述监控设置就足够了。 但是,如果您处理更关键的用户场景,还有更多的项目要检查。

    例如,模型在哪里犯了更多的错误,它在哪里工作得最好?

    您可能已经知道要跟踪的一些特定分段(segments),例如:您的高级客户与整体基数的模型准确性。 它需要一个自定义质量指标,仅为您定义的段内的对象计算。

    在其他情况下,主动搜索性能低下的段是有意义的。想象一下,您的房地产定价模型始终建议特定地理区域的报价高于实际报价。这是您要注意的事情!

    根据场景,我们可以通过在模型输出之上添加后处理或业务逻辑来解决它。 或者通过重建模型来解决表现不佳的段。

    机器学习模型监控清单-LMLPHP 我们的目标是超越总体性能并了解特定数据切片的模型质量。

    6. 偏见/公平

    当涉及到金融、医疗保健、教育和其他模型决策可能产生严重影响的领域时,我们需要更仔细地审查我们的模型。

    例如,模型性能可能会因不同人口群体在训练数据中的表现而异。 模型创建者需要意识到这种影响,并与监管机构和利益相关者一起拥有减轻不公平的工具。

    为此,我们需要跟踪合适的指标,例如准确率中的奇偶校验。它适用于模型验证和持续的生产监控。因此,仪表板上还有一些指标!

    我们的目标是确保公平对待所有子群体并跟踪合规性。

    开源工具:Fairlearn

    7.异常值

    我们知道模型会出错。 在某些用户场景中,例如广告定位,我们可能不在乎个别输入是否显得奇怪或平常。 只要它们不构成有意义的部分,模型就会失败!

    在其他应用程序中,我们可能想了解每个此类情况。 为了最大限度地减少错误,我们可以设计一组规则来处理异常值。 例如,将它们发送给人工审核,而不是自动做出决定。 在这种情况下,我们需要一种方法来相应地检测和标记它们。

    我们的目标是标记模型预测可能不可信的异常数据输入。

    开源工具:Seldon Alibi-Detect

    监控听起来可能很无聊。 但是,让机器学习在现实世界中发挥作用至关重要。 不要等到模型失败时才创建第一个仪表板!

    原文链接:A Machine Learning Model Monitoring Checklist: 7 Things to Track

    11-08 13:43