MacVector怎么转换序列格式 MacVector序列格式批量转换怎么操作-MacVector中文网站

　　我们在不同的程序或者数据库之间传递序列文件的时候，格式问题经常会冒出来，虽然不算大毛病，但也能让人折腾一阵子。在MacVector里边怎么把序列转成自己想要的格式，碰上一大批序列文件的时候又该怎么统一处理，动手之前先要搞清楚目的。要是只打算提交一段纯碱基序列，那转成FASTA格式就足够省事了；可要是还指望着把基因、编码区、引物结合位点、酶切位置这些注释也原样带走，就更适合去转成GenBank或者其他带注释的格式。MacVector官方的说明里面也写了，这个工具能导入好多种序列格式，所以在正式开始转换以前，最好先想一想那些注释到底还用不用得上。

　　一、MacVector里怎么转换单个序列的格式

　　转换单条序列格式的时候，基本的路子不算难，也就是把原文件打开，确认里面的东西没有问题，然后再另外存成想要的格式。但千万别一打开就急着导出，尤其是碰到带着注释的质粒、基因片段和蛋白序列的时候，动手前最好先看一眼那些特征标签还在不在。

　　1、把原始的序列文件打开

　　先在MacVector里点一下【File】菜单，再选【Open】，从跳出来的窗口里找到FASTA、GenBank、EMBL或者MacVector自己存下来的那些序列文件。文件打开以后，还得切到序列视图或者Map视图底下，去核对碱基的长度、序列的方向、上面挂着的注释，还有文件的名称，看看有没有哪里不对。因为有时候从别家软件导进来的文件会夹带一些不太容易发现的格式错误，提前扫一眼能省下很多后面返工的时间。

　　2、选择另存为或者导出

　　在确认完序列本身没啥问题之后，就可以去点【File】菜单下面的【Save As】，或者直接用【Export】这个功能。不同版本里面这两个选项的叫法可能差一两个字，但它们的作用都是把当前这条序列再保存成另外一种格式。在正式开始保存以前，建议先把原文件复制一份放在旁边，别一下子就把原文件给覆盖掉，这样万一等会儿发现格式选得不对劲，还能把老文件拿出来重新再转一次。

　　3、挑一个对得上后面用途的格式

　　要是这条序列接下来只拿去做引物设计、跑一跑序列比对，或者往公共数据库里提交，那选FASTA格式基本就够用了；可要是你还想把基因的结构、编码区的位置、引物位点和酶切位点这些注释也完整地保留下来，那就要去选GenBank这种带注释的格式。这里还得留个神，GenBank和FASTA这两种格式都能在一块文件里打包好多条序列，但是MacVector在默认的情况下，很可能会把这种多序列的文件按照比对视图去打开，所以在处理多条序列的时候心里要有点数。

　　4、回过头去检查一遍转换完的结果

　　保存的动作做完以后，还不能算完事，你得把刚刚生成的那个新文件重新打开一遍，再去核对一下序列的长度、名称、注释还有方向，看看是不是都跟原来一样。因为FASTA格式一般就只能把序列本身和一行的标题行给留下来，好多注释信息在这个过程中容易丢掉，而GenBank格式在保住特征方面就要可靠不少。如果这时候你发现注释都找不到了，那多半是刚才挑的目标格式不合适，得从头再换一种格式重新转一次。

　　二、MacVector序列格式批量转换怎么操作

　　等到手里攒了十几二十条序列都需要转换格式的时候，再一条一条地手动去保存就太慢了，光靠人工一个接一个另存，不光容易出错还特别耗时间。文件数量一多，就可以试试去借用AppleScript脚本来做批量的处理。MacVector官方以前也给出过用AppleScript批量转换文件的办法，它能在脚本里直接把原文件名拿过来当作新的Locus用，还能让操作的人自己选，要不要把所有序列合并成一个多序列的大文件，然后再一口气转成FASTA或者GenBank格式。

　　1、先把需要转换的文件归整到同一处

　　可以把全部要转格式的序列文件，一股脑儿都塞进同一个文件夹里边，文件名也尽量弄得比较统一的样式，比如类似于sample_001、sample_002，或者plasmid_A这样的，看着也能整齐一点。但要特别注意，别把质粒序列、蛋白序列、测序的峰图文件，还有一些完全不相干的表格，全都混在一个目录底下，要不然批量脚本一旦跑起来，很容易就稀里糊涂地抓到了错误的文件去处理，后面查起来就很要命了。

　　2、事先定好要输出成哪一种格式

　　在正式开始批量转换以前，自己心里头得先拿稳一个主意，输出格式到底选FASTA还是GenBank。FASTA文件个头比较小，拎起来轻便，拿去做大量的序列比对或者往数据库里上传的时候很方便；而GenBank自己身上带的信息就要完整得多，想把那些特征注释完好地保留下来，用它就特别管用。只不过一定要提前把口径给统一好，别弄到最后一大堆文件里面，有一部分是按FASTA交出去的，另一部分又按GenBank交出去的，那样后面整理起来整个就乱了套了。

　　3、去运行那个批量处理的脚本

　　在Mac电脑上把准备好的AppleScript脚本给打开，然后照着脚本里面给出的提示，一步一步地去选好用来放源文件的文件夹，还有打算输出成什么格式。在真正大规模地跑全部文件之前，最稳妥的做法是先随便挑出两三个文件来小试一次，等确认了这些输出来的东西都能够被正常打开，再放手去处理剩下的全部文件。毕竟批量操作这种事情，万一中间哪个地方命名规则给搞错了，回头再一个一个地去改文件名，那种返工是挺折磨人的。

　　4、仔细查一遍输出目录里的东西

　　等这轮批量转换全部跑完了以后，先要去瞧一眼输出文件夹里的文件数量，看看是不是跟原来塞进去的数量完全对得上号。要是你在跑脚本的时候选了要把它们合并成一个多序列的大文件，那还得再把这个大文件给打开，去确认一下是不是每一条序列都已经好好地待在了里面。另外还得留个心，在多序列的FASTA或者GenBank文件往MacVector里边导回去的时候，软件很可能自动按比对方式去打开它，但有些场合下你又需要去按单条序列的方式来处理，这个时候具体怎么弄，就得看下一步准备拿这些文件去干什么了。

　　三、格式转换完了以后要怎么去复核

　　等到格式全部转换完之后，不能光看文件能打得开就觉得万事大吉了，真正要仔仔细细去查看的，是里头序列的内容有没有在转换的过程中偷偷变了样，原来挂着的那些注释信息有没有在中间被弄丢，还有序列的名字是不是已经被搞得乱七八糟的了。

　　1、去核对一下序列的长度

　　你可以把转换之前的老文件和刚刚生成的新文件同时都打开，放在一起去比一下里头的碱基数目，或者是氨基酸的数目，看看是不是一模一样。要是发现这两头的长度对不上了，那就得往深里再查一查，弄清楚是不是有哪一端的序列在转换的时候被漏掉了，或者是被软件半道给截断了，又或者当初在多序列文件里头，只不小心把其中的某一条给单独导了出来，这些情况都有可能发生。

　　2、看看那些注释的信息还在不在

　　假如当初那份最原始的序列文件里面，是老老实实地标着CDS、gene、primer，还有酶切位点这些注释的，那么一旦你把它转成了FASTA格式，这些信息基本上就很难再被完整地保留下去了。只要自己在后面接下来的随便哪一步里还有可能会用到这些注释，那在开头转换的那会儿就应当首先去挑GenBank这一类带注释的格式，别等到要用的时候才突然发现信息已经丢干净了。

　　3、核对一下序列的命名和方向

　　批量转换全部结束以后，经常容易冒出来的一些小毛病，就包括了文件名忽然之间出现了重复、Locus那一栏被写得不清不楚，还有就是序列的方向不知道在什么时候被弄反了。在把这些文件正式拿出去交付以前，最少也要从里面随手抽出几条有代表性的序列出来，去核对一下它们的名称、方向，还有里面的具体内容，是不是都能够跟原来一一对应得上，这样才不至于在后面做实验的时候被带偏了方向。

　　总结

　　在MacVector里处理序列格式转换，单个文件可以照着打开文件、检查内容、另存为目标格式的步骤来走；当需要处理的文件数量太多的时候，就可以去借助AppleScript脚本，把它们批量转成FASTA或者GenBank。在动手转换以前，务必要先想清楚到底有没有必要把那些注释给留下来，等全部转完之后，也别忘记再去核对一下序列的长度、名称、方向，还有上面挂着的特征信息。这样一整套做下来，比光靠改一改文件的后缀名要踏实得多。