Kryo通过有效的序列化方法帮助提高Spark应用程序的性能。
我想知道Kryo是否会在SparkSQL方面提供帮助,以及我应该如何使用它。
在SparkSQL应用程序中,我们将执行很多基于列的操作,例如df.select($"c1", $"c2"),并且DataFrame Row的架构不是完全静态的。
不确定如何为用例注册一个或多个序列化程序类。

例如:

case class Info(name: String, address: String)
...
val df = spark.sparkContext.textFile(args(0))
         .map(_.split(','))
         .filter(_.length >= 2)
         .map {e => Info(e(0), e(1))}
         .toDF
df.select($"name") ... // followed by subsequent analysis
df.select($"address") ... // followed by subsequent analysis

我认为为每个select定义案例类不是一个好主意。
或者如果我像Info一样注册registerKryoClasses(Array(classOf[Info]))是否有帮助

最佳答案

根据Spark's documentation的说法,SparkSQL不使用Kryo或Java序列化。



它们比Java或Kryo轻巧得多,这比预期的(要序列化,要说的是3个long和两个int的行,这要容易得多),而不是类,版本说明和内部变量。 。)并必须实例化。

话虽这么说,但是有一种方法可以将Kryo用作编码器实现,请参见此处的示例:How to store custom objects in Dataset?。但这是作为在数据集中存储自定义对象(例如非产品类)的解决方案,而不是专门针对标准数据帧。

如果没有Java序列化程序的Kryo,则为自定义非产品类创建编码器会受到一定的限制(请参阅关于用户定义类型的讨论),例如,从此处开始:Does Apache spark 2.2 supports user-defined type (UDT)?

关于apache-spark - Keto在Spark SQL中有帮助吗?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/49270880/

10-10 13:37