我想创建以下工作流程:

1.使用GetTwitter处理器获取推文。

  • 使用MergeContent进程将推文合并到更大的文件中。
  • 将合并的文件存储在HDFS中。
  • 在hadoop / hive方面,我想基于这些推文创建一个外部表。

  • 有示例如何执行此操作,但我缺少的是如何配置MergeContent处理器:设置为页眉,页脚和分界符的内容。
    以及在蜂​​巢侧用作分隔符的内容,以便它将合并的推文拆分成行。
    希望我能清楚地描述自己。

    提前致谢。

    最佳答案

    二进制模式下的MergeContent处理器可以很好地完成工作。无需页眉,页脚和分界符。

    关于hadoop - Apache NiFi/Hive-将合并的推文存储在HDFS中,在Hive中创建表,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/36773654/

    10-12 23:45