algorithm - 衡量数据质量的技术和实践是什么？

如果我有一大组描述物理“事物”的数据，我该如何衡量这些数据与它应该表示的“事物”的匹配程度？
举个例子，如果我有一个装有12个小部件的箱子，我知道每个小部件的重量是1磅，那么应该进行一些数据质量“检查”，确保箱子的重量可能是13磅。
另一个例子是，如果我有一个灯和一个代表那个灯的图像，它应该看起来像一个灯。也许图像尺寸应该与灯尺寸的比例相同。
除了图像，我的数据是99%的文本（包括高度，宽度，颜色…）。
我在学校学过人工智能，但除此之外，我做的很少。
标准的人工智能技术是一条路吗如果是，如何将问题映射到算法？
有些语言在这方面比其他语言容易吗？他们有更好的图书馆吗？
谢谢。

最佳答案

你的问题有点开放，但听起来你想要的是在classifier领域被称为“machine learning”的东西。
一般来说，分类器接受一段输入并对其进行“分类”，即：确定对象的类别许多分类器提供了这种确定的概率，有些甚至可能返回多个类别，每个类别上都有概率。
分类器的一些例子有bayes nets、神经网络、决策列表和decision treesbayes网通常用于垃圾邮件分类。电子邮件可能被归类为“垃圾邮件”或“非垃圾邮件”。
对于你的问题，你想把你的物品归类为“高质量”或“不高质量”。
你首先需要的是一堆训练数据。也就是说，已经知道正确分类的一组对象。一种方法可以得到这一点，可以得到一堆对象，并分类他们的手如果对象太多，一个人无法分类，您可以将其输入Mechanical Turk。
一旦你有了你的训练数据，你就会建立你的分类器。你需要弄清楚哪些属性对你的分类很重要。你可能需要做一些实验来看看什么是有效的然后让分类器从训练数据中学习。
一种常用的测试方法是将训练数据分成两组。使用其中一个子集训练分类器，然后看看它对另一个子集（通常较小）的分类效果如何。