我们有两种类型的日志:
1) session 日志:SESSION_ID,USER_ID,START_DATE_TIME,END_DATE_TIME
2)事件记录:SESSION_ID,DATE_TIME,X,Y,Z
我们只需要存储事件日志,但是想用其对应的USER_ID替换SESSION_ID。我们应该使用哪些技术(例如Flume?)将数据存储在HDFS中?
谢谢!
最佳答案
是的Flume可用于将日志文件移动到HDFS。
要将SESSION_ID替换为USER_ID,您可以:
使用Shell脚本执行此操作-并生成“修改后的事件日志文件”-这就是Flume将要使用的内容。这将是最简单的方法。