apache-spark - 如何加载连续3行(被视为1条)的数据集？

|T  2009-08-26 17:1...|
|U  http://twitter....|
|     W No Post Title|
|                    |
|T  2009-11-01 02:4...|
|U  http://twitter....|
|     W No Post Title|
|                    |
|T  2009-11-18 16:5...|
|U  http://twitter....|
|     W No Post Title|
|                    |

现在我有这样的数据
我想对每4行数据进行分组。

所以一行将包含

T  2009-X-XX   U   http://xxxx      W xxxxxxx"

那可能吗？
还是有办法将其制作为 header 为T U和W的csv文件？
谢谢。

最佳答案

我认为唯一的解决方案是编写自己的自定义TextBasedFileFormat，它可以处理像您这样的三行文本格式。

请参阅org.apache.spark.sql.execution.datasources.csv.CSVFileFormat以获取灵感。
CSVFileFormat可能可以轻松地使用空行作为行分隔符来处理格式。

关于apache-spark - 如何加载连续3行(被视为1条)的数据集？，我们在Stack Overflow上找到一个类似的问题：https://stackoverflow.com/questions/47611934/

10-10 13:51