我正在尝试用 hive 导入这种类型的一些数据:

我以那种方式尝试过

CREATE TABLE fields (timestamp STRING, fields_array ARRAY<STRING>)
ROW FORMAT DELIMITED
    FIELDS TERMINATED BY ','
    LINES TERMINATED BY '\n';

CREATE TABLE fields (timestamp STRING, fields_string STRING)
ROW FORMAT DELIMITED
    FIELDS TERMINATED BY ','
    LINES TERMINATED BY '\n';
但表中仅存储时间戳和第一个值。
例如。:

为什么?

最佳答案

您需要定义这样的python脚本:

import sys

for line in sys.stdin:
    splitLine=line.strip().split(',', 1)
    print "%s\t%s" % (splitLine[0], splitLine[1])

并在您的hql类型中

关于csv - 使用Hive导入混合数据(字符串和字符串数组),我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/29778799/

10-12 23:00