MacVector怎么翻译蛋白序列 MacVector蛋白翻译框怎么切换-MacVector中文网站

　　在序列分析的时候，挺常见也特别磨人的一件事，就是翻译出来的氨基酸序列，跟心里预想的那个蛋白对不上。要用 MacVector 来正确地翻译蛋白，并且能够在不同的阅读框之间灵活切换，关键的一步是先把手里的 DNA 序列看清楚，明白它到底是一段完整的编码区（CDS）、一段局部的短序列，还是一段还没确定开放阅读框（ORF）的未知片段。在 MacVector 里面，既可以在序列编辑窗口的旁边直接看到三框或六框的氨基酸翻译结果，也可以通过菜单里的【Analyze】→【Translation】，去生成一份文本格式的蛋白翻译，这两种办法都可以按习惯来选。

　　一、蛋白序列应该怎么翻译

　　在动手翻译之前，得先把 DNA 的方向、从哪个碱基起头，以及准备翻译多大一片区域都给确定好，不要随手就把一整条载体序列全部扔进去，然后把跳出来的东西不加分辨地当成目标蛋白，因为载体骨架、那些不翻译的段落，还有各种接头序列，都会对读框造成很明显的干扰。

　　1. 把 DNA 序列文件打开。可以在 MacVector 里打开要用的 DNA，它可能是一段刚测出来的片段、一份 GenBank 格式的文件、一张质粒图谱，或是一次 PCR 的产物；打开之后第一件事，是检查序列的书写方向有没有问题，如果目的基因实际上是藏在反向互补的那条链上，而只照着正向去翻译，就不太可能得到正确的东西。这个时候就要去看反向互补链，或者干脆打开六框翻译，把互补链上可能有的编码信息也一起翻出来。

　　2. 把要翻译的区域圈选好。要是已经知道了编码区的准确起止位置，就直接用鼠标从起始密码子拖到终止密码子，把这一段碱基给框住，然后再去让软件翻译。这样被选中的只有这一段，选区外面的无关序列就不会被带进结果里去，能省下很多事后辨认的力气，不少人都会先选中关心的那些区域，再去点【Analyze】→【Translation】生成对应的蛋白。

　　3. 去执行翻译的命令。点开【Analyze】菜单，选里面的【Translation】，在弹出来的设置小窗里，一般会把结果显示成普通的文本格式，再按需要设定一次显示几个阅读框。如果只是为了核对一段已经明确标出来的编码序列，那只选一个目标读框往往就够用了；可要是开放阅读框还没定，就不如先选三框或者六框，把所有可能的读码方式都摊开在眼前，对比起来一目了然。

　　二、翻译框怎样进行切换

　　切换翻译框，主要是为了弄清楚起始位点选得对不对、中间有没有提前蹦出来的终止密码子，还有目标序列到底是落在正向链还是反向链上。一旦读框选错了，翻出来的蛋白就容易碎成许多很短的片段，到处都能碰到终止信号，完全拼不成一条完整的多肽链。

　　1. 用 STRANDS 按钮显示多框。在序列编辑窗口的工具栏上，有一个【STRANDS】按钮，按住它就可以选三框或六框翻译，这样就能直接在碱基序列的旁边，看到每一框对应的氨基酸简写，完全用不着再另外去开别的窗口；在不同读框之间来回切换和比较的时候，这个功能用起来特别快，不同框之间的差别一眼就能看出来。

　　2. 在 Translation 设置里定好框数。进到【Analyze】→【Translation】的对话框之后，把里面的【Number of Frames】设成 3 或者 6，设成 3 是只把正向链上的前三个框翻译出来，这种模式适合方向已经可以确定的情况；要是设成 6，就是正反两条链一共六个框一起翻译，适合方向还不清楚、测序拼接片段，或者那些没有任何注释的陌生序列，这样一下子就能把所有潜在的编码可能都扫上一遍。

　　3. 靠起止密码子来做判断。在不同框之间切换过后，重点去查看每一个框里面，有没有一个看起来合理的 ATG 起始密码子，在这个起始密码子后面，是不是跟着一段没被终止密码子打断的连续阅读区。要是某个框刚走没多远，就接连撞见好几个 Stop 信号，那这个框基本就不是我们要的；反过来，如果有某个框能拉出一条相当长的开放阅读框，而且长度跟预期蛋白的大小也差不多，就应该优先把它挑出来，再去做更细致的比对。

　　三、翻译结果异常的时候怎么排查

　　翻译结果看上去不正常的时候，别一上来就怀疑是软件算错了，更多时候问题出在序列的方向搞错了、选区的边界没对好、有个别碱基丢失了、测序质量不高的位点，或者遗传密码表还没来得及核对正确，把这些可能一样一样地查过去，原因往往就跟着被找出来了。

　　1. 检查起始位点是不是选偏了。要是翻出来的蛋白在 N 端多出一截不太相干的氨基酸，很可能是当初框选翻译区域的时候，鼠标的起点不小心划到了上游的非编码里头去；反过来，要是 N 端本该有的氨基酸不见了，那又可能是起点选得太靠后。这时候就需要回到 DNA 序列的界面，重新去确认起始密码子和注释里标出的编码区边界，再把选区的范围重新调准确。

　　2. 看一看序列里面有没有发生移码。如果翻译到一半，突然就冒出一大串终止密码子，就一定要去上游查一查是不是藏着碱基的插入或者缺失，有时候一个读不出来的 N 碱基也会惹出相似的麻烦；要知道哪怕只是少了一个碱基，从缺失处往后所有的读码框就会跟着整体移了位，蛋白序列自然就乱成一片，这也是为什么这一步里，仔细对照一下原始的测序峰图往往能发现端倪。

　　3. 核对序列本身记录的方向。假如正向的那三个框翻来覆去也找不到一个像样的开放阅读框，就果断切换到六框翻译的模式，去反向互补链上看看有没有哪个框能给出更合理的读码；实际工作里，克隆的片段、刚下机的读长、人为插入的外源序列，方向往往需要反复核实，而六框翻译正好把正反两个方向的所有可能性都给照顾到了。

　　总结

　　总的看下来，界面上的翻译按钮点起来是简单的，可真正在背后左右着最终结果的，还是方向、起点、读码框和选区范围这几个细节。在实际动手操作的时候，可以照下面的顺序来推进：先把目标 DNA 区域圈选好，接着用【Analyze】→【Translation】去生成蛋白序列；方向一时拿不准的时候，就靠【STRANDS】按钮，或者调整框数的设定，去查看三框或者六框翻译的结果；一旦发现翻译出来的东西跟预想的对不上，就优先排查起止密码子、有没有发生移码、反向链里是否藏着更合理的读框，还有 ORF 的门槛是不是设得太低了，不要连这些明显的问题都没处理好，就急着拿这份结果去做后续的比对。