在拿到一段还没有加上注释的DNA序列的时候,先去观察一下它的开放阅读框,对于判断哪些区域可能承担编码功能是很有帮助的。在MacVector这个软件里面,开放阅读框要怎么样才能查看得到,而查出来的那一堆结果又要怎么样去把它筛选出来,这里面的关键操作,就是先把ORF的显示功能给打开,然后再按照长度、方向、起始密码子以及跟已有注释的关系,把那些会形成干扰的候选片段给排除掉。MacVector本身提供了一个叫做Scan for Open Reading Frames的工具,它可以自动去扫描DNA序列,扫描完成之后的开放阅读框会被展示在Map标签页当中。
一、MacVector怎么查看开放阅读框
在MacVector里面去查看开放阅读框的时候,首先得保证当前已经被激活的那个窗口,确实是一个DNA序列的编辑窗口。通常情况下,开放阅读框的扫描结果会出现在序列的图谱视图里面,如果进入到对应页面却没有看到任何ORF标志的话,不要马上就下结论说这一段序列里面不存在开放阅读框,而应该先去检查一下显示相关的那些设置项。
1、把DNA序列的文件给打开
要在MacVector里面打开FASTA格式、GenBank格式,或者是存放在本地的其他序列文件,打开以后顺便核对一下序列的方向和长度是不是正确的;要是这一段序列是从测序结果里面直接拿过来的,那比较稳妥的做法,是先把里面质量比较差的那部分片段给修剪掉,然后再去执行开放阅读框的查看操作。
2、进入到Map标签页当中
在把序列打开之后,就要把界面切换到Map这个标签页上来,随后在图谱显示的这个区域里,去观察有没有出现代表CDS或者ORF的标记;按照MacVector给出的说明,Scan for Open Reading Frames这个功能会在每一个DNA序列的窗口里面自动地去扫描开放阅读框,并且把得到的结果显示在Map标签页里面。
3、检查一下自动扫描的那个开关
要是Map里面没有显示出ORF的标记,那就要进到【MacVector】菜单里面的【Preferences】选项去,然后找到【Scan DNA】这个设置项,或者和DNA Map相关的那个设置区域,确认一下Scan for Open Reading Frames这一项到底是不是处于开启的状态;MacVector也提示过,这个工具是可以在Preferences里头的Scan DNA窗格当中手动把它打开或者关掉的。
4、对显示的样式做一下调整
当ORF的标记显得太密集了的时候,可以去【Options】→【Default Symbols】里面,把它的外观样式给调整一下;官方那边也提到过,ORF的显示效果是能够通过Default Symbols这个菜单来进行控制的,用这个方式去统一颜色、线型还有标记的样式,就会方便很多。
二、MacVector开放阅读框结果怎么筛选
对开放阅读框的结果做筛选的时候,不能只是简单地看一看有没有比较长的条状标记就完事了,对于那些偏短的ORF、位于反向链上的ORF、起始位点不是标准类型的ORF,还有已经被其他特征注释覆盖过的区域,都要结合这一次实验本身的目的去做出判断。
1、按照最小的密码子数量来做筛选
可以在ORF扫描的设置面板里面,去调整Minimum Number of Codons这个参数;MacVector相关的说明里面写到了,这个参数的设置是用来控制一条ORF要想被显示出来,最少需要包含多少个密码子,平常在克隆候选编码区的时候,完全可以把这一个值适当地往上调一调,用这样的办法把那些非常短的、随机出现的ORF给隐藏掉。
2、按照正链和反链的方向来做筛选
要去查看一下每一条ORF它到底是落在正链上还是反链上,把它的方向给辨别清楚;要是这一段序列是从目标基因的扩增产物里面得来的,那通常就会优先去考虑那些和当初引物设计方向保持一致的ORF,而如果面对的是一段完全未知的序列,那就正反两个方向都必须要仔细地看一遍。
3、检查一下起始密码子和终止密码子的情况
在结果当中还要去看一看,每一条ORF是不是都带有看起来比较合理的起始密码子和终止密码子;起始的位点有时候并不只一个,靠前一些的ATG、它上下游的序列上下文,还有序列上已经标注好的那些信息,都需要综合起来一起考虑,不要仅仅因为某一条ORF是目前最长的,就想当然地把它认定成目标编码区。
4、结合已经存在的注释来做判断
如果手头的序列上面本身就已经带有CDS、gene、primer或者restriction site这一类的注释了,那就要把扫描出来的ORF拿去跟这些已有的注释做一下对照;MacVector也提醒过,这种自动显示ORF的功能,对那些还没有被注释过的序列来说确实很好用,可是当碰上注释信息本来就特别丰富的序列时,它反而可能会带来比较多的视觉干扰。
三、MacVector ORF结果怎么复核
在把候选的ORF都挑选出来之后,还不能算是完全结束了,后面还需要再做一步复核的工作,免得把那些只不过是长度比较长的随机片段,错当成了真正有编码意义的序列。
1、把候选ORF翻译成蛋白的序列去看一看
先选中那一条候选的ORF,然后去查看一下它对应的翻译结果,在翻译出来的蛋白序列里面,要检查一下是否存在翻译提前终止的情况,或者有没有出现长度短得不正常的肽段,以及是不是发生了很明显的移码;要是发现翻译的中间频繁地蹦出终止密码子,那么通常就说明这一条ORF的方向、序列本身的质量,或者读码框的选择,是存在问题的。
2、核对一下读码框是否吻合
同样的一段DNA,它在正链上一共有三种不同的正向读码框,而在反向互补的那一条链上,同样也有三种;我们最后筛选出来的候选ORF,一定要跟最初设计实验时的目标、引物所在的具体位置,还有载体上面那些酶切位点,这些事情都保持住一致才行。
3、在导出之前把筛选的依据保留下来
等到最终确定了候选的ORF之后,还要把这次筛选时用到的最小长度阈值、ORF所在的方向、它在序列上的起止位置,还有当前所使用序列的版本,这些信息都给记录下来;这样在后面去做克隆设计、引物设计,或者是整理实验报告的时候,就能够讲得清楚,当初到底是依据什么才选中了这一条特定的ORF。
总结
关于在MacVector里面究竟要怎么去查看开放阅读框,以及这些开放阅读框的结果又要如何去进行筛选,总体的操作顺序就是先把DNA序列给打开,然后进到Map标签页里面去查看ORF的显示情况,有必要的话再到偏好设置的Scan DNA里面把自动扫描的功能给打开;到了筛选这一步,需要重点关注的因素就包括了最小的密码子数目、ORF所在的方向、起始和终止密码子的情况,还有序列上面已经存在的那一些注释信息;最后,再利用翻译出来的蛋白结果和读码框去做一次复核,这样就能够避免把那些虽然很长但实际没有意义的短ORF,错当成了真正的目标编码区域。