第三章
- 标称:转换成0,1来算,或者用非对称二元属性
- 二元:x1,x2的分布取00,01,10,11的二元属性个数,列表,算比例。不对称的二元属性就忽略00的属性个数
- 序数:转换成排位rif,度量:rif-1/mf-1
- 数值:欧几里得距离,曼哈顿距离,范数,切比雪夫距离
混合类型:
第六章:frequent pattern
1.关联分析及其度量
绝对支持度:出现的频次;相对支持度:出现的概率
支持度:联合概率A->B的支持度support=P(AB);置信度:条件概率confidence=P(B|A)=P(AB)/P(A)
找出支持度大于阈值的一些项集,即为频繁项,在这些频繁项中求置信度大于某个阈值的,这些即为关联规则
闭项集:x的超集支持度<x的支持度;x任意的超集都不是频繁项,则x是最大频繁项集。
2.Aprioir算法
Aprioir
- 定理1:如果一个项集是频繁的,那么其所有的子集(subsets)也一定是频繁的。
这个比较容易证明,因为某项集的子集的支持度一定不小于该项集。
- 定理2:如果一个项集是非频繁的,那么其所有的超集(supersets)也一定是非频繁的。
根据定理1,2可以对项集进行剪枝
- 定理3:同时满足最小支持度阀值和最小置信度阀值的规则称为强规则。
Aprioir算法的步骤:生成L1;连枝生成L2候选集,剪枝生成L2,
再连枝,再剪枝。。(连枝:三项集的元素顺序排列生成4项集:前两项相同第三项不同的三项集生成四项集没有重叠)
Aprioir改进:
Aprioir每次计算支持度都要烧苗一遍数据库。