|T 2009-08-26 17:1...|
|U http://twitter....|
| W No Post Title|
| |
|T 2009-11-01 02:4...|
|U http://twitter....|
| W No Post Title|
| |
|T 2009-11-18 16:5...|
|U http://twitter....|
| W No Post Title|
| |
现在我有这样的数据
我想对每4行数据进行分组。
所以一行将包含
T 2009-X-XX U http://xxxx W xxxxxxx"
那可能吗?
还是有办法将其制作为 header 为T U和W的csv文件?
谢谢。
最佳答案
我认为唯一的解决方案是编写自己的自定义TextBasedFileFormat,它可以处理像您这样的三行文本格式。
请参阅org.apache.spark.sql.execution.datasources.csv.CSVFileFormat以获取灵感。CSVFileFormat
可能可以轻松地使用空行作为行分隔符来处理格式。
关于apache-spark - 如何加载连续3行(被视为1条)的数据集?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/47611934/