本地BLAST (Basic Local Alignment Search Tool)入门

本地BLAST (Basic Local Alignment Search Tool)入门生物本地 blast 初步 这里的 blast 并非 BLAST Bell Labs Layered Space Time 而是 BLAST Basic Local Alignment Search Tool 是一套在蛋白质数据库或 DNA 数据库中进行相似性比较的分析工具 BLAST 程序能迅速与数据库进行相似性序列比较

大家好,我是讯享网,很高兴认识大家。

=#生物本地blast初步
这里的blast并非BLAST(Bell Labs Layered Space-Time)而是BLAST (Basic Local Alignment Search Tool)是一套在蛋白质数据库或DNA数据库中进行相似性比较的分析工具。BLAST程序能迅速与数据库进行相似性序列比较。BLAST结果中的得分是对一种对相似性的统计说明。
这里我们需要了解什么是打分矩阵。(如果你只想简单的使用一下本地blast的话,这部分可以跳过)
打分矩阵
一个氨基酸的打分矩阵
讯享网从这是一个氨基酸的的打分矩阵
打分矩阵(Scoring Matrix)用于计算序列相似性(Similarity),其数学本质是统计权重,可以处理序列不确定性的问题。
打分矩阵通过对位置的打分,统计权重,从而推导出两段序列的相对位置关系。(这一段我可能说不清楚,我应该还没有达到那种境界吧)我还是介绍本地blast的简单使用方法吧
下载安装blast
首先我们得去官网下载blast。https://blast.ncbi.nlm.nih.gov/Blast.cgi(双手奉上网址)
在这里插入图片描述上滑在这里插入图片描述下载好之后,进行解压,没啥其他的安装步骤。然后就是配置环境了(配置环境相当于告诉系统,你通过CMD输入makeblast…的时候,系统要从哪儿找blast的运行文件)
配置方法
找到解压后的blast文件,打开里面的bin文件,复制bin文件的路径。在我的电脑里点右键=>属性=>高级系统设置=>环境变量
在这里插入图片描述至此blast就安装完毕。
blast主要有以下几种:
BLASTp:用蛋白质序列搜索蛋白质序列库
BLASTn:用核酸序列搜索核酸库
BLASTx:核酸序列对蛋白质库的比对,核酸序列在比对之前自动按照六个读码框翻译成蛋白质序列
tBLASTn:蛋白质序列对核酸库的比对,核酸库中的序列按照六个读码框翻译后与蛋白质序列进行比对搜索
tBLASTx:核酸序列对核酸库在蛋白质质级别的比对,两者都在搜索之前翻译成为蛋白质质进行比对
今天我们以最简单的blastn为例,跑一次blast。
blast是进行序列对比的软件,因此输入文件会是两个序列文件,序列文件我们通常是以fasta文件储存的。例题中我们有两个fasta文件,我们需要对他们进行blast。首先,将两个fasta文件放在同一文件夹下(如果不在同一文件夹下,我们后续操作则需要随时代入文件路径),打开Windows powershell(shift+右键)开始输入命令。
blast进行本地blast序列对比我们需要建立一个库文件(在线blast的库使用的是各大生物数据库的文件),输入命令:makeblastdb建库命令。
makeblastdb -in b.fasta -dbtype nucl -out b.fasta.blastdb[文件在当前Windows powershell所打开文件夹下因此不需要代入路径]
==注意空格不能少=
-in 后面是建库文件,我们使用较大的文件建库
-out 后面跟输出的库文件名,一般在第一步建库之后会生成三个文件nhr/nin/nsq这三个共同作为一个库进入下一步。
下一步就是我们需要根据所跑的内容决定了,我们是跑的核酸序列,因此我们使用blastn即可。
blastn -query a.fasta -db b.fasta.blastdb -out b.blast -outfmt 6 -evalue 1e-5 -num_threads 2
-query: 输入文件路径及文件名
-out:输出文件路径及文件名
-db:格式化了的数据库路径及数据库名
-outfmt:输出文件格式,总共有12种格式,6是tabular格式对应BLAST的m8格式
-evalue:设置输出结果的e-value值
-num_descriptions:tabular格式输出结果的条数
-num_threads:线程数[我电脑只支持2线程所以后面的值我定为2]
执行完这些,一个简单的blast就完成了。补充一下简单的知识fasta格式文件。
fasta
fasta格式文件的第一行是由大于号’>'或分号“;”打头的任意文字说明,用于序列标记。从第二行开始为序列本身,只允许使用既定的核苷酸或氨基酸编码符号。通常核苷酸符号大小写均可,而氨基酸常用大写字母。使用时应注意有些程序对大小写有明确要求。一般每行60~80个字母。

小讯
上一篇 2025-04-04 23:42
下一篇 2025-01-09 10:07

相关推荐

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/122562.html