我使用apriori算法来识别客户的频繁项集,根据识别出的频繁项集,当客户在其购物清单中添加新的项目时,我想向客户提示项目,作为频繁项集,得到如下结果;
[1],[3],[2],[5]
[2.3],[3,5],[1,3],[2,5]
[2,3,5]
我的问题是,如果我只考虑[2,3,5]向客户提出建议,我错了吗也就是说,如果客户将第3项添加到其购物列表中,我将推荐第2项和第5项如果客户将项目1添加到购物列表中,则不会提出任何建议,因为我只考虑设置[2,3,5],并且该设置中没有项目1。我想知道我的逻辑(仅考虑集合[2,3,5])是否足以为用户提供建议
最佳答案
不,导出推荐规则需要更多的努力。
仅仅因为[2,3,5]是频繁的并不意味着2->3,5是一个好的规则。
假设2是一个非常流行的产品,但是3,5只是很少出现考虑一下加油站[汽油、咖啡、百吉饼]可能是经常出现的商品,但很少有买汽油的顾客也会买咖啡和百吉饼(低信心)。
你确实想考虑像2,3->5这样的规则,因为它们可能有更高的可信度也就是说,如果顾客买汽油和咖啡,建议买个百吉饼。
推荐频率不够!假设在80%的案例中,2和3被购买2,3,5是60%的情况下购买。天真的说,8次中有6次,顾客也会买5次,那是75%正确!但这并不意味着5是一个好的建议!因为5可以占80%,所以如果他买了2和3,他买5的可能性实际上减少了5%,我们这里有一个负相关。所以你也要看电梯。或者其他类似的措施,有很多。