我是Hadoop的新手。我知道HCatalog是Hadoop的表和存储管理层。但是它是如何工作的以及如何使用它。请举一些简单的例子。
最佳答案
HCatalog支持以可以写入Hive SerDe(序列化器-反序列化器)的任何格式读取和写入文件。默认情况下,HCatalog支持RCFile,CSV,JSON和SequenceFile格式。要使用自定义格式,必须提供InputFormat,OutputFormat和SerDe。
HCatalog构建在Hive Metastore的顶部,并结合了Hive DDL的组件。 HCatalog为Pig和MapReduce提供读写接口(interface),并使用Hive的命令行界面发布数据定义和元数据探索命令。
它还提供了一个REST接口(interface),允许外部工具访问Hive DDL(数据定义语言)操作,例如“创建表”和“描述表”。
HCatalog提供了数据的关系 View 。数据存储在表中,这些表可以放入数据库中。表也可以在一个或多个键上分区。对于一个键(或一组键)的给定值,将存在一个分区,其中包含具有该值(或一组值)的所有行。
编辑:大部分文本来自https://cwiki.apache.org/confluence/display/Hive/HCatalog+UsingHCat。