本文介绍了将 FASTQ 文件读入 Spark 数据帧的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!
问题描述
我正在尝试将 FASTQ 文件读入 Spark 数据帧.我有一些困难,因为 FASTQ 是一种多行格式.
I'm trying to read FASTQ files into Spark dataframes. I have some difficulties because FASTQ is a multi line format.
示例:
@seq1
AGTCAGTCGAC
+
?@@FFBFFDDH
@seq2
CCAGCGTCTCG
+
?88ADA?BDF8
有没有办法在像
+-------------+-------------+------------+
| identifier | sequence | quality |
+-------------+-------------+------------+
|seq1 |AGTCAGTCGAC |?@@FFBFFDDH |
|seq2 |CCAGCGTCTCG |?88ADA?BDF8 |
+-------------+-------------+------------+
感谢您的时间
推荐答案
I'd slide
import org.apache.spark.mllib.rdd.RDDFunctions._
spark.createDataset(sc.textFile(path).sliding(4, 4).map {
case Array(id, seq, _, qual) => (id, seq, qual)
}).toDF("identifier", "sequence", "quality")
// +----------+-----------+-----------+
// |identifier| sequence| quality|
// +----------+-----------+-----------+
// | @seq1|AGTCAGTCGAC|?@@FFBFFDDH|
// | @seq2|CCAGCGTCTCG|?88ADA?BDF8|
// +----------+-----------+-----------+
这篇关于将 FASTQ 文件读入 Spark 数据帧的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持!