我正在尝试转换输入数据,如下所示:

Id,Name,Types,Code
1, A, a1;a2;a3, 101
2, B, b1;b2, 202
...

变成一个扁平的结构,其中类型被分成几行,例如:
1, A, a1, 101
1, A, a2, 101
1, A, a3, 101
2, B, b1, 202
2, B, b2, 202
...

我在这里尝试过的是在StrSplit之后得到一个元组,然后尝试将其转换为BAG,然后可以将其展平成单独的行。
input_data = LOAD '/user/gjhawar/latestSkillMappedEn.csv' USING PigStorage('|') AS
(
id : chararray,
name : chararray,
type: chararray,
code : chararray);

a = LIMIT input_data 10;

b = FOREACH a GENERATE (id, name, code), BagToString(TOBAG(STRSPLIT (type,'\\u003B',100)), ' ') as newCategoryName:chararray;

最佳答案

分号作为定界符会有问题。用其他替换它,标记化并展平。

http://www.hadooplessons.info/2015/01/word-count-in-pig-latin.html

flattened_input_data = FOREACH a GENERATE skillId, skillName, matchType, culture, FLATTEN(TOKENIZE(REPLACE(categoryName,'\\u003B', '|'), '|')) as newCategoryName;

关于hadoop - 将 pig 元组的元素转换为行,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/42015529/

10-12 23:01