我正在尝试帮助我的团队简化占用大量时间的数据提取过程。我们接收多种格式的数据,并且属性的排列方式有所不同。有没有一种使用RapidMiner创建流程的方式,该流程可以:
我想我知道一个,但是我很乐意在此作为计划过程中的提示
对我来说是新手)
我们处理的属性主要由名称, id ,电话,电子邮件,地址组成。同样,在某些情况下,名称是按第一/最后一个名称拆分的,在某些情况下,它们是全名。
我认识到,为这样简单的属性修改文件并不难,但是我们收到的文件数量众多且缺乏顺序,这使得在没有一点自动化的情况下简化流程非常困难。我也将转向标准化的接收格式,但是由于种种原因,这已经迫在眉睫,而不是立即解决。
我感谢您可以分享的任何提示或指导。
最佳答案
您的问题相对广泛,很遗憾,我无法给您完整的答案。但是这里有一些关于如何处理您提到的观点的想法:
寻找。在这种情况下,您可以定义时间表(例如,
定期检查是否有新文件),甚至定义一个Web服务来
触发过程。
使用“循环文件”和宏提取的组合来获取
正确的类型,并将“分支”或“选择子流程”用于
切换到不同的输入路径。
仅选择特定的子集。在你的例子中,我会去
正则表达式类似于
[pP]hone.*
以获取不同的拼写变体。在这种情况下,“重新排序
属性”运算符和“通过替换重命名”以创建通用
命名架构。
构建更复杂的流程管道时的一般技巧是在sub-processes中组织您的不同任务,并使用“执行流程”运算符。这使得所有内容都更具可读性和可维护性。好的error handling策略对于处理不可预见的数据格式也很重要。
对于许多高级RapidMiner用户的更详尽的解答和提示,我也强烈推荐RapidMiner community。
我希望这可以为您的项目提供一个良好的起点。