简介
NCBI除了提供在线的Web BLAST序列比对服务外,还提供FTP方式下载序列比对工具。这允许在本地平台上针对从NCBI下载或本地创建的数据库执行BLAST搜索。这些实用程序没有图形用户界面,通过类似DOS的命令窗口运行,并通过基于文本的命令行开关接受输入。
以下内容介绍了在运行Windows 7操作系统的PC上安装BLAST+和示例NCBI数据库所需的步骤。
下载
BLAST+软件包ncbi-blast-#.#.#+-win64.exe,适用于运行64位Windows操作系统的PC上。“#.#.#”表示软件包的当前版本号。注意,带有“.tar.gz”文件拓展名的压缩包没有安装程序,下面内容重点关注“.exe”扩展名的软件包。
步骤
下载包的步骤如下所述:
- 用浏览器打开下面网址:ftp://ftp.ncbi.nlm.nih.gov/blast/executables/LATEST/
- 右键单击所需的软件包,然后弹出菜单中选择“将链接另存为...”
- 在提示符中,切换到所需的目录(文件夹),然后单击“保存”按钮将软件包保存到本地磁盘上的选定位置
示例
图1a和图1b中给出了“ncbi-blast-2.2.29+-win64.exe”软件包的安装步骤,其中前两步在图1a中,最后一步在图1b中。
图1a 通过浏览器从NCBI下载blast +软件包:登录到ftp://ftp.ncbi.nlm.nih.gov/blast/executables/LATEST/并选择“将链接另存为...”,然后右键单击“NCBI-BLAST-2.2.29+-win64.exe”。
图1b 通过浏览器从NCBI下载blast +软件包:在将软件包保存到所需位置之前,将后续提示中的位置更改为“C:”下的自己目录。
安装
上面下载的BLAST+软件包包含了内置安装程序,双击后接受许可协议,安装程序将提示选择安装目录,在此示例中,安装目录为“C:\users\tao\desktop\blast-2.2.29+”。单击“安装”按钮,安装过程中将创建指向BLAST+用户手册链接的“doc”子目录、用来删除安装的“卸载程序”以及BLAST程序所在的“bin”子目录。表1列出了BLAST+包中包含的程序和实用程序。
表1
blast+包中的程序和组件
blastdbcheck | 检查BLAST数据库的完整性 |
blastdbcmd | 从BLAST数据库中检索序列或其他信息 |
blastdb_aliastool | 创建数据库别名 |
blastn | 在核苷酸数据库中搜索查询提交的核苷酸序列 |
blastp | 在蛋白质数据库中搜索查询提交的蛋白质序列 |
blastx | 在蛋白质数据库中搜索提交的核苷酸序列翻译成的6种蛋白质序列 |
blast_formatter | 格式化输出请求的ID(RID)或保存的文档 |
convert2blastmask | 将小写转换为makeblastdb程序可读数据 |
deltablast | 使用更敏感的算法在蛋白质数据库中搜索查询提交的蛋白质序列 |
dustmasker | 掩盖提交的核苷酸序列中低复杂性序列 |
legacy_blast.pl | 将传统的blast搜索命令行转换为blast +对应命令执行 |
makeblastdb | 根据FASTA文件创建对应的BLAST数据库 |
makembindex | 索引用于megablast的现有核苷酸数据库 |
makeprofiledb | 从psiblast生成的输入位置特定评分矩阵(记分簿)列表中创建保守域数据库 |
psiblast | 查找蛋白质家族的成员,识别与查询有关的蛋白质,或为查询构建位置特定的评分矩阵 |
rpsblast | 在保守域数据库搜索提交的蛋白质序列以识别序列中存在的功能域 |
rpstblastn | 在保守域数据库中搜索提交的核苷酸序列翻译成的6种蛋白质序列 |
segmasker | 掩盖输入蛋白质序列中的低复杂性序列 |
tblastn | 在核酸数据库中搜索提交的蛋白质序列翻译成的由6种读码框翻译成的所有核酸序列 |
tblastx | 在核酸数据库中搜索提交的核酸序列翻译成的由6种读码框翻译成的蛋白质序列反翻译成的核酸序列 |
update_blastdb.pl | 从NCBI下载预先格式化的blast数据库 |
windowmasker | 在提交的核苷酸序列中搜索标记的重复序列 |
BLAST数据库测试
除了blast+包中的程序和组件,目标数据库也是关键组件之一。常用的预先格式化的BLAST数据库压缩文档可以从NCBI FTP站点获得,也可以使用makeblastdb程序从本地FASTA序列文件创建对应的BASLT数据库。要管理可用的BLAST数据库,需要先创建一个用于储存它们的目录。在本测试中,目录是“C:\users\tao\desktop\blastdb”。
从NCBI下载预先格式化的BLAST数据库类似图1中的步骤,如下:
- 用浏览器打开下面网址:ftp://ftp.ncbi.nlm.nih.gov/blast/db/
- 右键单击所需的文件(本示例中为refseq_rna.00.tar.gz)
- 从弹出菜单中选择“将链接另存为...”
- 出现提示时,将目录更改为“C:\users\tao\desktop\blastdb”。
使用WinZip或7zip软件对下载的数据进行解压和提取。注意,上述步骤仅下载安装了refseq_rna数据库的第一部分,完整的数据集需要下载所有refseq_rna.##.tar.gz文件。图2演示了使用Winzip解压提取过程。
图2 使用Winzip解压下载的压缩文件refseq_rna.00.tar.gz。右键单击数据库文件,然后选择“WinZip”和“Extract to here ...”
包含在blast+包中的组件update_blastdb.pl可用于简化从NCBI下载预格式化的BLAST数据库。该程序需要安装Perl,并且执行需要在“C:\users\tao\desktop\blastdb\”目录下,基本命令是:
perl update_blastdb.pl --passive base_database_name
其中“base_database_name”是目标数据库的名称,没有“##.tar.gz”后缀。
配置
为了便于执行blast+中的程序和组件,需要将安装目录“C:\users\tao\desktop\blast-2.2.29+\bin\”添加到名为PATH的用户环境变量中,BLASTDB环境变量的值设置为“C:\users\tao\desktop\blastdb\”目录。
环境变量
创建或修改环境变量的步骤如下:
- 单击“开始”按钮,然后单击“控制面板”链接以打开“控制面板”单击“系统”图标以打开系统提示
- 单击左列中的“高级系统设置”链接以打开“系统属性”提示
- 单击“环境变量”按钮以查看可用列表
- 单击“用户变量...”面板下的“新建”按钮
- 键入环境变量名称并输入绝对路径
- 单击“确定”关闭提示
截图
这些步骤的屏幕截图显示在图3a,3b和3c中。
图3a 使用Windows环境变量配置blast +:在初始系统弹出窗口中,单击“高级系统设置”链接以打开“系统属性”弹出窗口。 单击“环境变量...”按钮以访问现有环境变量或设置新变量(如3b所示)。
图3b 使用Windows环境变量配置blast+:点击图3a上的“环境变量...”按钮打开此弹出窗口,该弹出窗口提供对现有环境变量的访问,并允许分别使用“编辑”和“新建”按钮创建新变量。 与BLAST相关的两个用户变量是BLASTDB和PATH(突出显示)。
图3c 使用Windows环境变量配置blast+:单击图3c中的“新建”按钮会显示此弹出窗口,其中可以指定新变量的名称和路径。 在此示例中,使用值“C:\users\tao\desktop\blast-2.2.29+\bin\”指定名为“path”的用户变量。
执行和验证
blast+程序是没有用户界面(GUI)的,必须从命令提示符窗口(CMD)执行。单击“开始→所有程序→附件→命令提示符”或单击“开始→运行...”,然后键入“cmd”回车即可打开dos窗口。过程如图4a、图4b所示。
图4a 在Windows 7中打开命令提示符:单击“开始”按钮,然后单击“所有程序”链接以查看可用程序列表。 通过单击以查看命令提示符(突出显示)打开附件折叠。 单击它以启动。
图4b 在Windows 7中打开命令提示符:或者,单击“开始”按钮,然后单击右侧列中的“运行...”链接。 在弹出窗口中,在输入框中键入“cmd”以打开命令提示符。
执行示例
在命令提示符dos窗口下,输入“cd C:\users\tao\desktop\blast-2.2.29+”回车,工作目录将跟改为“C:\users\tao\desktop\blast-2.2.29+”。图5显示了测试blast安装。
图5 测试blast +安装的工作会话的输出:输入命令在红色框中。 blastdbcmd和blastn命令执行产生的输出文件用红色箭头标记。 最后一个命令用于检查BLASTDB环境变量设置,其输出由最后一组箭头标记。
测试命令说明
第一个命令将工作目录更改为blast-2.2.29 +目录。 “dir”列出了此目录下的文件和子目录。 “blastn -version”和“blastdbcmd -db refseq_rna.00 -info”命令无错误输出来验证安装。
实际测试应该是blast序列比对命令,以下使用blastcmd命令从已安装的数据库中转出序列用做此类查询。
blastdbcmd –db refseq_rna.00 –entry nm_000122 –outfmt "%f" –out test_query.txt
命令行的确切含义(从左到右)如下:
- 执行blastdbcmd
- 使用refseq_rna.00作为目标数据库
- 获取数据库序列中nm_000122作为名称的序列
- 以FASTA格式转储序列
- 将输出存储在test_query.txt文件中
将输出文件text_query.txt作为blast序列比对命令的输入文件
blastn –query text_query.txt –db refseq_rna.00 –out output.txt
这条命令让系统执行如下信息:
- 执行blastn程序在核苷酸数据库搜索提交的核苷酸序列
- 使用文件test_query.txt中的序列作为查询
- 在数据库refseq_rna.00中搜索
- 将结果保存到output.txt文件中
程序未指定参数将使用默认值,要进一步自定义搜索,可以键入“program -help”查看参数列表及接受的选项。“dir”命令显示输出文件(由红色箭头标记)。
最后一个命令“set | find BLASTDB”演示在dos窗口查看环境变量的方法。