人们经常把IR,ML和数据挖掘这两个术语混为一谈,但是我注意到它们之间有很多重叠之处。
从在这些 Realm 有经验的人那里,究竟能划出什么界限?
最佳答案
这只是一个人(经过ML正式培训)的观点;其他人对事情的看法可能完全不同。
机器学习可能是这三个术语中最相似的,也是应用最一致的-它仅限于模式提取(或模式匹配)算法本身。
在您提到的术语中,“机器学习”是学术部门用来描述其类(class),学术部门和研究计划的最常用术语,也是学术期刊和 session 论文集中最常用的术语。 ML显然是您提到的术语中与上下文关系最少的。
信息检索和数据挖掘更接近于描述完整的商业流程,即从用户查询到相关结果的检索/传递。机器学习算法可能在该流程中某个位置,在更复杂的应用程序中通常是这样,但这不是正式的要求。另外,术语“数据挖掘”似乎通常是指在大数据上应用某些流程(即> 2BG),因此通常在工作流的前端附近包括一个分布式处理(map-reduce)组件。
因此,信息检索(IR)和数据挖掘(DM)以基础结构算法的方式与机器学习(ML)相关。换句话说,机器学习是用于解决信息检索问题的工具之一。但这只是工具的一种来源。但是IR并不依赖于ML,例如,特定的IR项目可能是响应用户的搜索查询IR来存储和快速检索全索引数据,其症结在于优化数据流的性能,即,即从查询到将搜索结果交付给用户的往返行程。预测或模式匹配在这里可能没有用。同样,DM项目可能将ML算法用于预测引擎,但是DM项目也更可能关注整个处理流程-例如,用于有效输入海量数据的并行计算技术(可能是TB ),从而向处理引擎提供原始结果,以计算变量(列)的描述性统计信息(均值,标准差,分布等)。
最后考虑Netflix奖。这场竞赛仅针对机器学习-重点在于预测算法,事实证明存在一个成功标准:该算法返回的预测的准确性。想象一下,是否将“Netflix奖”更名为数据挖掘竞赛。成功的标准几乎肯定会得到扩展,以便在实际的商业环境中更准确地访问算法的性能,因此,例如,可能会考虑整体执行速度(向用户交付建议的速度)以及准确性。
术语“信息检索”和“数据挖掘”现在已成为主流,尽管有一段时间我只在工作说明或供应商文献中看到这些术语(通常在“解决方案”旁边)。在我的雇主处,我们最近雇用了“数据挖掘”分析师。我不知道他到底干什么,但是他每天都系领带。
关于machine-learning - 信息检索(IR)vs数据挖掘vs机器学习(ML),我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/3417709/