要弄清楚在MacVector里怎么把序列上的那些注释给导出来,还有导出来以后顺序不对该怎么调整,得先想明白你是打算把整条序列连同注释一块儿保存成文件,还是只单独拉出一张包含Feature和Annotation的表格。在MacVector的序列窗口里,通常都有Map、Features、Annotations这样几个标签页,按照官方资料的说法,Features和Annotations这两个标签页里面的内容,是可以通过【Export Tab Contents As】这个选项给导出成csv或者tsv格式的,这样一来,放到表格软件里面再做后续的整理就比较方便了。如果是要交给别人,让他们继续在别的序列分析软件里打开,那就应该优先去导出成GenBank、FASTA这一类序列格式;可要是为了做实验记录、编写质粒说明,或者交付一张整理好的表格,那把注释表导出来会更加省事一些。
一、在MacVector里面怎么把序列注释给导出来
在动手导出之前,得先把注释信息给确认清楚,比如说gene、CDS、promoter、terminator、primer、mutation还有restriction site这些Feature的名称写得是否明白,位置有没有标对,方向是不是跟实际序列相一致,因为只要这里面有一处是乱的,导出来的表格再好看也没用。
1、从Features标签页往外导
先把序列文件给打开,然后切换到【Features】这个标签页下面,在列表里头仔细看一看,确认你能够清楚地找到Feature的名称、类型、起止位置、方向以及说明这些栏目;接着去点【File】菜单,选【Export Tab Contents As】,把内容存成csv文件或者tsv文件,一般情况下选csv格式拿去常规的表格整理是没问题的,而要是注释内容里头本身就含有逗号,那选tsv就会更稳当一些。
2、把完整的序列文件给导出来
如果你希望对方拿到文件并且打开以后,依然能够同时看到序列和上面的Feature注释,那就要用到【File】菜单下面的【Export】,在里面去选GenBank这一类本来就带着注释的序列格式;而FASTA格式在大多数情况下只能够保留序列文本本身,用它来保存完整的Feature注释是不太合适的。
3、给导出来的版本留下清楚的文件名
给导出的文件起名字的时候,建议把样本名、序列版本和导出日期都包含进去,比如类似Plasmid_A_feature_20260528.csv这样的文件名;千万不要图省事就用final、new这类模糊的叫法,不然等到后面再想回头找的时候,就很难分清楚到底哪个版本是跟当时的实验记录对得上号的。
二、注释导出以后顺序不合适要怎么去调整
当注释被导出来以后,觉得顺序看着不太对劲,这种情况一般分成两类:一类是在MacVector里面那个Feature列表本身的排序方式,它可能是按位置来排的,也可能是按类型来排的;另一类就是等数据被导到表格里头以后,还需要按照做实验记录时习惯的阅读顺序去重新排一遍。
1、先回到MacVector里面去检查一下排序
在【Features】这个标签页里面,直接用鼠标去点列表上方的那些列标题,就可以按照名称、类型、起始位置或者结束位置这些字段去排序了;要是你的目的只是单纯地想按序列上的位置来查看注释,那一般就按Start或者Location那一栏去排个序就好了,这样导出来的表格也会更加接近注释在序列上的真实排列顺序。
2、导进表格以后再去做排序
如果要把注释整理成写报告时会用到的那种顺序,那你可以把文件放到Excel或者Numbers这类软件里面,再去按照Feature Type、Start、Strand和Name这些列来进行排序;比如在整理质粒说明的时候,经常会按照promoter、gene、tag、terminator、selection marker、origin这样一种阅读上面的逻辑去排列,而不是完完全全地照着碱基的位置去排。
3、手动加上一列用来编号
为了防止反复排了很多次以后整个顺序又乱成一团,我们可以在表格里面自己新增一列,起个名字叫“显示顺序”,然后在里面用手工填上1、2、3、4这样的序号;这样处理完了以后,以后无论你是想再按位置去看,还是按类型去看,随时都能够靠着这一列恢复成原来设好的报告顺序。
三、注释顺序不对的时候该怎么去复核
当注释被导出来了以后,不能只是盯着表格里的那一串顺序去看,还得再回到Map视图里面,去把注释所在的位置给确认一遍,因为表格排得再整齐,也不等于这些Feature在序列上就一定是正确的。
1、把起止坐标拿出来核对一遍
一定要重点去检查CDS、引物、突变位点,还有那些限制性的酶切位点这些关键的东西,有时候起点或者终点只是差了一个碱基,导出来的注释表格上你看着好像是挺正常的,但是到了后面去做引物设计或者做表达分析的时候,这一点点出入就很可能会带来影响。
2、把方向的信息给核对清楚
正向的和反向的这些Feature藏在表格里面是很容易被忽略掉的,所以数据导出来了以后,要把Strand或者Direction这个字段给保留下来,特别是那些反向的引物、反向的基因片段,还有反向的启动子,不要光留下一个名字就完事了,方向一旦看漏了那后面出的问题就大了。
3、把原始的序列文件给保存好
要记住,表格说到底只是一个整理出来的结果,它是没有办法去替代最原始的那个MacVector文件的,不管是导出csv、tsv还是GenBank格式之前或者之后,都要把原始的文件和修改过后的文件分别给留好,这样等到将来需要回过头去追溯注释的变化时,也有个依据。
总结
在MacVector里面导出序列注释的常用路子,一般就是在Features或者Annotations标签页里面,通过【File】→【Export Tab Contents As】去导出csv或者tsv文件;如果是要把序列和注释放在一起交给别人,那就用【File】→【Export】导出那种携带注释的序列格式。等到注释导出以后发现顺序不太对,可以先回到Feature列表里面去按照位置、名称或者类型排好序,导出以后再到表格里面照着写报告的逻辑去整理,并且用一列人工编号把最终的顺序固定下来;在真正交付之前,一定还要再去复核一下坐标、方向、环状序列的起点,还有那些自动注释的来源,这样才能避免出现顺序虽然排得漂漂亮亮,可注释本身却压根儿对不上的尴尬情况。