今天要上NCBI下载sra数据发现没有下载的链接,网上查发现都是老的方法,NCBI页面已经变更,于是看了NCBI的help,并且记录下来新版的sra数据下载方法,要用NCBI的工具SRA Toolkit。另外咨询师兄,总结得到新的wget下载的方法。

方法1 NCBI告知的方法(中断不能继续下载)

下载后直接解压到某个指定位置

  • 搜索SRA并获取accesion list

    在NCBI sra页面(https://www.ncbi.nlm.nih.gov/sra)输入登陆号( accession number )进行搜索;显示搜索结果如下

    NCBI下载sra数据(新)-LMLPHP

    这里显示的是该project下的所有数据,点击一个,进入sra数据界面

    NCBI下载sra数据(新)-LMLPHP

    这里点击1GB(数据大小)的链接,进入下载界面

    NCBI下载sra数据(新)-LMLPHP

    再点击Accesion List 下载 Accesio List

  • 使用SRA Tookit 的prefetch进行下载

    prefetch 放在sratoolkit文件夹下的bin

 ~/utilities/sratoolkit.2.8.2-1-centos_linux64/bin/prefetch --option-file SRR_Acc_List.txt

  sra数据会下载到家目录下的ncbi/public/sra中,perfetch 默认aspera下载(如果存在于环境变量,否则使用https下载),也可设置aspera,Ex:prefetch -t ascp -a "/opt/aspera/bin/ascp|/opt/aspera/bin/asperaweb_id_dsa.openssh" --option-file file.txt; file.txt 格式为每一行一个SRR#,可以使用下载界面的RunInfo table下载的文件

NCBI下载sra数据(新)-LMLPHP

更详情的请查看prefetch 帮助:https://trace.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?view=toolkit_doc&f=prefetch

方法2使用wget 下载

以下是NCBI 存放SRR5483089的路径

ftp://ftp.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByRun/sra/SRR/SRR548/SRR5483090/

可见ftp构成:

ftp://ftp.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByRun/sra/SRR/+SRR+登陆号前三位数字(548)+/SRR+完整登陆号(5483089)

进入即可看到FTP文件,可以直接下载或者通过复制链接用wget 下载

如果按SRP下载文件的话,构成是

ftp://ftp.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByStudy/sra/SRP/+SRP+SRP前三位数字 (105) +/SRP+SRP的完整登陆号(105315)

04-21 03:24