在进行CDS检查、突变位点确认以及质粒插入片段验证的时候,大家经常需要用到MacVector来把DNA序列翻译成蛋白序列,这是一个很常用的操作。关于MacVector蛋白翻译怎么设置,还有MacVector蛋白翻译结果怎么保存,其实并不是简单地点击一下翻译按钮就能搞定的,我们在操作前,需要先把读码框、链的方向、CDS注释以及遗传密码表这些内容都确认好才行。MacVector这个软件可以在序列编辑器里面把3框或者6框的翻译显示出来,同时它也支持按照已经有的CDS注释,把实际的蛋白翻译结果展现出来。
一、MacVector蛋白翻译怎么设置
我们在进行蛋白翻译之前,得先看一看自己手里的序列到底是什么类型的。在这里,新手很容易犯错,经常会把反向链上的编码区当成了正向链来翻译,这样操作之后,结果里面就会出现很多提前终止的符号。
1、先显示正负链翻译
把DNA序列打开以后,我们需要切换到序列编辑的视图界面,这时候大家可以通过Display按钮或者Strands相关的按钮,把翻译显示出来。MacVector这个软件能够支持显示正链的3个读码框,同时它也能把负链的3个读码框显示出来。
2、确认读码框和方向
如果发现目标区域在+1、+2、+3这三个框里面的某一个框能连续翻译,而且中间没有看到明显的提前终止,这就说明目标区域可能是在正链上面;要是看到主要的开放阅读框是出现在-1、-2、-3里面,这时候我们就需要去考虑互补链的方向了。
3、按CDS注释翻译更稳妥
对于那些已经带有GenBank注释的序列,它们里面通常都是包含有CDS Feature的。MacVector里面的Show CDS Translations功能,会根据Features列表里的CDS注释把实际的翻译区显示出来,在检查成熟序列的时候,这种方法比随便查看6框翻译要更合适一些。要是大家自己的片段里面还没有CDS注释,我们可以先把编码区域选中,然后去创建一个CDS Feature,接着再回到显示翻译结果的界面就可以了。
4、设置遗传密码表
平常我们遇到普通的细菌、真核核基因,一般使用的都是Universal Genetic Code,但是如果序列是来自线粒体或者某些特殊的生物,这时候可能就得去更换遗传密码表了。MacVector在翻译的时候,会去使用当前已经选择好的genetic code,而且氨基酸的显示方式也会受到Text Display偏好设置的影响,就比如会显示成单字母或者三字母的形式。
5、正式运行Translation分析
如果我们是想要得到一条能够保存下来的蛋白序列,而不仅仅是临时看一眼,我们就需要去运行【Analyze】→【Translation】了。在操作的时候,我们可以选择整段序列,也可以在Segment范围对应的输入框里填上指定的区间,或者直接从Feature列表里面把某个CDS选出来;只要把Create new protein勾选上,MacVector就会把一个新的蛋白序列窗口生成出来。
二、MacVector蛋白翻译结果怎么保存
在把翻译结果保存下来之前,我们要先分清楚“显示出来的翻译”和“生成出来的蛋白序列”这两者。前面那一种只适合用来快速地看一眼读码框,后面那一种才适合我们后面拿来保存、做比对、跑BLAST或者写进项目资料里面。
1、保存新生成的蛋白序列
我们通过运行【Analyze】→【Translation】并且勾选了Create new protein以后,就会得到一个新的Protein sequence窗口。在我们确认好序列的名称、长度还有终止符号都没有问题之后,就可以使用【File】→【Save】或者【Save As】来保存了。
2、从文本结果中复制短肽段
有时候大家可能只是需要复制一小段氨基酸序列,比如想看看融合标签连接的地方有没有发生移码。MacVector这里提供了一个可行的办法:我们先去把目标的DNA区域选中,接着运行【Analyze】→【Translation】,再选择Display text view with translation,并且要把Number of Frames设置成3或者6;之后在弹出的结果窗口里面,我们把需要的氨基酸文本选中,就可以把它复制到新的序列文档或者外部的文件里面去了。
3、批量保存多个CDS翻译结果
如果我们手头处理的是细菌的基因组、质粒库或者有很多个CDS注释的文件,这时候就可以去使用【Analyze】→【Translate All CDS Features】。这个功能可以把当前序列里面的所有CDS都批量翻译出来,并且让它以FASTA格式显示出来,方便大家去复制或者保存,同时它还可以把codon usage table生成出来。这种方式和一个个CDS去手动翻译相比,要更适合用来批量整理数据。
4、把翻译结果保留在注释中
如果大家的目的只是为了整理带有注释的质粒或者基因文件,那么我们可以把准确的编码区直接保存为CDS Feature。MacVector在创建或者处理CDS相关的注释时,是可以把预测出来的翻译作为Feature信息的一部分保留下来的;这样大家以后重新打开文件的时候,CDS和它对应的蛋白信息就会跟着序列一起被管理了。
三、翻译结果异常时应该怎样检查
如果发现蛋白翻译出来的结果不正常,这时候不一定就是MacVector的设置出了问题。其实更常见的原因,是序列本身就不完整、链的方向选反了、读码框发生了偏移,或者是CDS的范围没有从正确的位置开始算起。
1、出现大量星号时先查读码框
要是看到翻译结果里面频繁地出现终止符号,大家先不要急着去保存。我们需要检查一下起始的位置是不是从正确的密码子开始的,看一看插入片段的前后有没有多出来1个或者2个碱基,还要看测序的结果里面是不是有缺失、插入或者N。如果发现同一段DNA在换了一个读码框以后序列就变得连续了,这通常就说明我们之前选的frame是不对的。
2、蛋白长度不对时看CDS边界
要是翻译出来的结果比预期的要短很多,这可能是因为CDS没有把完整的区域覆盖进去,或者是序列中间有提前终止密码子存在。如果结果比预期的还要长,那也有可能是把载体的序列、连接臂或者非编码区也一起翻译进去了。遇到这种情况,我们应该回到Map视图或者Features视图里面,重新去核对Start、Stop以及Complementary的设置。
3、方向不确定时结合ORF和BLAST判断
面对未知的片段,我们千万不要只盯着一个方向看。我们可以先让软件显示出6框翻译,把比较长的ORF找出来,接着把候选的蛋白序列保存下来去跑一个同源性比对。如果发现负链的翻译结果和目标蛋白更接近,这时候我们就需要考虑去对DNA序列做反向互补的操作了,或者需要把CDS Feature设置成Complementary。
总结
总的来说,在用MacVector进行蛋白翻译的时候,可以先通过正负链翻译还有Show CDS Translations来快速地查看,接着利用【Analyze】→【Translation】就能把可保存的Protein sequence生成出来了。如果遇到有很多个CDS需要处理的情况,大家可以用【Translate All CDS Features】来批量输出FASTA。只要把这几个步骤都弄清楚了,那么关于MacVector蛋白翻译怎么设置,以及MacVector蛋白翻译结果怎么保存,我们就能把这个临时的查看操作,变成一套可以追溯的序列分析流程了。