我正在尝试帮助我的团队简化占用大量时间的数据提取过程。我们接收多种格式的数据,并且属性的排列方式有所不同。有没有一种使用RapidMiner创建流程的方式,该流程可以:

  • 按时间表处理文件,这些文件将放入文件夹中(此
    我想我知道一个,但是我很乐意在此作为计划过程中的提示
    对我来说是新手)
  • 自动识别输入文件类型并路由到正确的运算符(例如“读取CSV”)
  • 识别相对少量的属性并相应地排列它们。在某些情况下,属性的命名方式与我们的提取格式相同,而在其他情况下则不是(例如电话电话# vs 电话)

  • 我们处理的属性主要由名称 id 电话电子邮件地址组成。同样,在某些情况下,名称是按第一/最后一个名称拆分的,在某些情况下,它们是全名。

    我认识到,为这样简单的属性修改文件并不难,但是我们收到的文件数量众多且缺乏顺序,这使得在没有一点自动化的情况下简化流程非常困难。我也将转向标准化的接收格式,但是由于种种原因,这已经迫在眉睫,而不是立即解决。

    我感谢您可以分享的任何提示或指导。

    最佳答案

    您的问题相对广泛,很遗憾,我无法给您完整的答案。但是这里有一些关于如何处理您提到的观点的想法:

  • 您需要进行RapidMiner Server的完整计划调度
    寻找。在这种情况下,您可以定义时间表(例如,
    定期检查是否有新文件),甚至定义一个Web服务来
    触发过程。
  • 要根据文件类型选择正确的运算符,您可以
    使用“循环文件”和宏提取的组合来获取
    正确的类型,并将“分支”或“选择子流程”用于
    切换到不同的输入路径。
  • “选择属性”运算符具有一些非常强大的选项
    仅选择特定的子集。在你的例子中,我会去
    正则表达式类似于[pP]hone.*以获取不同的拼写
    变体。在这种情况下,“重新排序
    属性”运算符和“通过替换重命名”以创建通用
    命名架构。

  • 构建更复杂的流程管道时的一般技巧是在sub-processes中组织您的不同任务,并使用“执行流程”运算符。这使得所有内容都更具可读性和可维护性。好的error handling策略对于处理不可预见的数据格式也很重要。

    对于许多高级RapidMiner用户的更详尽的解答和提示,我也强烈推荐RapidMiner community

    我希望这可以为您的项目提供一个良好的起点。

    10-02 07:34