我的字典类型为RDD:

>>> a.collect()



  [{(1155718,105):14,(1155718,1887):2,(1155718,1930):12,
  (1155718,927):6,(1155718,2783):8,(1155718,738):4,(1155718,
  952):4,(1155718,1196):6,(1155718,997):4,(1155718,2904):38}]


只是检查:

>>> a.map(lambda x:type(x)).collect()



  []


但是我不能使用map()遍历字典类型RDD。我试过了:

>>> a.map(lambda x:(k,v) for k,v in x.iteritems())


令我惊讶的是,它导致了错误:

Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
NameError: name 'x' is not defined


我在这里错过任何要点吗?

编辑:代码可以,除非与生成器语法有关的小错误,正确的代码应为:

a.map(lambda x:[(k,v) for k,v in x.iteritems()])

最佳答案

我尝试了这个:

data = [{(1155718, 105): 14, (1155718, 1887): 2, (1155718, 1930): 12, (1155718, 927): 6, (1155718, 2783): 8, (1155718, 738): 4,
         (1155718, 952): 4, (1155718, 1196): 6, (1155718, 997): 4, (1155718, 2904): 38}]

rdd = sc.parallelize(data)
rdd.flatMap(lambda _: [(k,v) for (k,v) in _.items()]).collect()


并得到了这个:

[((1155718, 105), 14),
 ((1155718, 738), 4),
 ((1155718, 2904), 38),
 ((1155718, 1887), 2),
 ((1155718, 1196), 6),
 ((1155718, 1930), 12),
 ((1155718, 927), 6),
 ((1155718, 2783), 8),
 ((1155718, 997), 4),
 ((1155718, 952), 4)]

关于python - PySpark:字典类型RDD上的迭代,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/43613869/

10-08 21:44