我注意到大多数博客都在谈论如何设置HDFS审核日志。
但是,是否有资料可以识别每个操作/ cmd代表什么?
我在Hadoop HowToConfigure Wiki中找到了下表:
但是我不知道的是,在所有操作中,它们代表什么。
例如我试图按读/写操作对操作进行分类,但是似乎“开放”是读/写的通用命令,其余的更像是DDL和访问控制操作。
我确实了解到,在不同的Hadoop发行版(如Cloudera或HDP)中,它们都有自己的方式来告知审核日志,但是默认操作代表什么?例如创建-可能意味着创建文件/ mkdirs可能意味着对配置单元表/配置单元分区使用mkdir。
最重要的是,有没有办法区分读/写操作?
最佳答案
如果您想到最典型的Hadoop作业(Pig,Hive,MR,SQOOP,Spark),则很少会覆盖数据,因此create意味着写入,open意味着读取。如果要覆盖数据,则实际上将其删除,然后重新创建它。
为了区分执行此服务的服务,还需要查看其他源(Hive审核日志,YARN RM审核日志)或从用户和目录推断服务(/ usr / hive / warehouse / *可能是一个hive查询) 。
覆盖/附加引用:
How to force STORE (overwrite) to HDFS in Pig?
How does Sqoop append command will work in hadoop
配置单元审核日志:
https://cwiki.apache.org/confluence/display/Hive/GettingStarted#GettingStarted-AuditLogs
关于hadoop - HDFS审核日志格式和说明,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/44533589/