因此,据我所知,要实现无监督的朴素贝叶斯,我们为每个实例的每个类分配随机概率,然后通过常规的朴素贝叶斯算法运行它。我知道,通过每次迭代,随机估计都会变得更好,但是我无法终生确切地知道它是如何工作的。
有人在乎这件事吗?
最佳答案
我所见过的朴素贝叶斯在无监督学习中的变体基本上是应用高斯混合模型(GMM,也称为期望最大化或EM)来确定数据中的聚类。
在此设置下,假定可以对数据进行分类,但是类别被隐藏。问题在于通过拟合每个类别的高斯分布来确定最可能的类别。朴素贝叶斯假设定义了要使用的特定概率模型,其中属性在给定类的条件下是独立的。
摘自Jose A. Gamez的"Unsupervised naive Bayes for data clustering with mixtures oftruncated exponentials"论文:
根据之前的设置,基于概率模型的聚类是
建模为模型的混合物(例如,参见(Duda等,2001)),其中
隐藏类变量的状态与组件相对应
混合数(簇数)和多项式
分布用于离散变量建模,而高斯模型
分布用于对数字变量建模。这样,我们移动
从未标记的数据(通常是EM)中学习的问题
算法(Dempster等,1977)用于进行学习
图形结构固定和结构EM时的任务
(弗里德曼,1998年)
被发现(Pena et al。,2000)。在本文中,我们专注于
具有固定结构的最简单模型,即所谓的朴素贝叶斯(Naive Bayes)
结构(图1),其中类是唯一的根变量,而所有
这些属性在给定类的条件下是独立的。
另请参见CV.SE上的this discussion。
关于machine-learning - 无监督的朴素贝叶斯-它如何工作?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/49421533/