This question already has answers here:
PySpark Evaluation
                                
                                    (2个答案)
                                
                        
                                2年前关闭。
            
                    
我正在尝试从当前数据集创建一个样本数据集。我尝试了两种不同的方法,它们分别产生了两个结果。每个采样行都应以整数和字符串([5,unprivate],[1,hiprivate])分开。第一种方法是给我每一行的字符串([private,private],[unprivate,hiverivate])。第二种方法是给我正确的输出。

他们为什么要产生两个完全不同的数据集?

资料集

5,unprivate
1,private
2,hiprivate


摄取数据

from pyspark import SparkContext

sc = SparkContext()
INPUT = "./dataset"

def parse_line(line):
    bits = line.split(",")
    return bits

df = sc.textFile(INPUT).map(parse_line)


第一种方式-输出类似
[[u'unprivate', u'unprivate'], [u'unprivate', u'unprivate']]

#1st way
columns = df.first()
new_df = None
for i in range(0, len(columns)):
    column = df.sample(withReplacement=True, fraction=1.0).map(lambda row: row[i]).zipWithIndex().map(lambda e: (e[1], [e[0]]))
    if new_df is None:
        new_df = column
    else:
        new_df = new_df.join(column)
        new_df = new_df.map(lambda e: (e[0], e[1][0] + e[1][1]))
new_df = new_df.map(lambda e: e[1])
print new_df.collect()


第二种方式-输出类似
[(0, [u'5', u'unprivate']), (1, [u'1', u'unprivate']), (2, [u'2', u'private'])]

#2nd way
new_df = df.sample(withReplacement=True, fraction=1.0).map(lambda row: row[0]).zipWithIndex().map(lambda e: (e[1], [e[0]]))
new_df2 = df.sample(withReplacement=True, fraction=1.0).map(lambda row: row[1]).zipWithIndex().map(lambda e: (e[1], [e[0]]))

new_df = new_df.join(new_df2)
new_df = new_df.map(lambda e: (e[0], e[1][0] + e[1][1]))
print new_df.collect()


我试图找出第62页的unisample函数
http://info.mapr.com/rs/mapr/images/Getting_Started_With_Apache_Spark.pdf

最佳答案

这与Spark执行代码的方式有关。尝试在第一个示例中将此打印语句放入代码中:

for i in range(0, len(columns)):
    if new_df:
        print(new_df.take(1))


由于代码被懒惰地执行,因此for循环将无法工作,因为Spark实际上将仅执行最后一个循环。因此,当您启动第二列的for循环时,您已经有一个new_df值,该值等于第二for循环的输出。

您必须使用第二个示例中使用的方法。

关于python - 为什么pyspark中的两种不同的数据处理方式会产生不同的结果? ,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/48158760/

10-12 19:38