hadoop - 使用 Hive 自定义 InputFormat

更新 :好吧，事实证明下面不起作用的原因是因为我使用的是较新版本的 InputFormat API( import org.apache.hadoop.mapred 是旧版本，而 import org.apache.hadoop.mapreduce 是新版本)。我遇到的问题是将现有代码移植到新代码中。有没有人有使用旧 API 编写多行 InputFormat 的经验？

尝试使用 Hadoop/Hive 处理 Omniture 的数据日志文件。文件格式是制表符分隔的，虽然在大多数情况下非常简单，但它们确实允许您在一个字段中拥有多个新行和制表符，这些行和制表符由反斜杠( \\n 和 \\t )转义。因此，当 Hive 尝试在选项卡上进行拆分时，我选择创建自己的 InputFormat 来处理多个换行符并将这些选项卡转换为空格。我刚刚尝试将一些示例数据加载到 Hive 的表中，但出现以下错误:

CREATE TABLE (...)
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'
STORED AS INPUTFORMAT 'OmnitureDataFileInputFormat' OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.IgnoreKeyTextOutputFormat';

FAILED: Error in semantic analysis: line 1:14 Input Format must implement InputFormat omniture_hit_data

奇怪的是，我的输入格式确实扩展了 org.apache.hadoop.mapreduce.lib.input.TextInputFormat ( https://gist.github.com/4a380409cd1497602906 )。

Hive 是否要求您扩展 org.apache.hadoop.hive.ql.io.HiveInputFormat ？如果是这样，我是否必须为 InputFormat 和 RecordReader 重写任何现有的类代码，或者我是否可以有效地更改它正在扩展的类？

最佳答案

在查看 LineReader 和 TextInputFormat 的代码后想通了这一点。创建了一个新的 InputFormat 来处理这个问题以及一个 EscapedLineReader。

https://github.com/msukmanowsky/OmnitureDataFileInputFormat

关于hadoop - 使用 Hive 自定义 InputFormat，我们在Stack Overflow上找到一个类似的问题：https://stackoverflow.com/questions/7692994/