我需要能够从RDD返回(键,值)对的值列表,同时保持原始顺序。
我在下面列出了我的解决方法,但我希望能够一次性完成这一切。
类似于:
myRDD = [(1, 2582), (3, 3222), (4, 4190), (5, 2502), (6, 2537)]
values = myRDD.<insert PySpark method(s)>
print values
>>>[2582, 3222, 4190, 2502, 2537]
我的解决方法:
myRDD = [(1, 2582), (3, 3222), (4, 4190), (5, 2502), (6, 2537)]
values = []
for item in myRDD.sortByKey(True).collect():
newlist.append(item[1])
print values
>>>[2582, 3222, 4190, 2502, 2537]
谢谢!
最佳答案
如果“原始顺序”是指键的顺序,那么您只需在排序后添加映射:
myRDD.sortByKey(ascending=True).map(lambda (k, v): v).collect()
或者调用
values
方法:myRDD.sortByKey(ascending=True).values().collect()
如果您引用了用于创建初始RDD的结构中的值的顺序,则不可能不讲述附加信息。RDD是无序的,除非您显式地应用
sortBy
之类的转换。关于python - PySpark-sortByKey()方法以原始顺序从k,v对返回值,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/31104491/