MacVector序列比对怎么做 MacVector比对参数如何选择更稳定-MacVector中文网站

　　MacVector序列比对怎么做MacVector比对参数如何选择更稳定，关键不在于一上来就改参数，而在于先把比对入口选对。MacVector官方把常见比对分成多序列比对、参考序列比对和点阵比较几条路径，其中多序列比对常用ClustalW、Muscle、T-Coffee，参考序列核对则更适合走【Analyze】里的【Align to Reference】。如果任务类型没分清，后面参数再怎么调，结果也容易忽前忽后。

　　一、MacVector序列比对怎么做

　　先把比对目标想清楚，再进对应窗口，后面的操作会顺很多。你是想看几条序列之间的相似关系，还是拿一批读段去对一条模板序列做核对，这两件事在MacVector里不是同一个入口。

　　1、做常规多序列比对时，先新建比对窗口

　　如果你手里是多条DNA或蛋白序列，先走【File】→【New】→【DNA Alignment】或【Protein Alignment】，再用【Edit】→【Add Sequences From File】把序列加进去。MacVector官方也支持直接用【Analyze】→【Align Multiple Sequences Using】调用ClustalW、Muscle或T-Coffee，把当前打开的序列拉进同一个比对里。

　　2、序列加完后，再点【Align】执行自动比对

　　进入MSA窗口后，工具栏里的【Align】就是自动比对入口。官方资料说明，这里会调用ClustalW、Muscle或T-Coffee来完成多条核酸或蛋白序列的自动比对，所以常规流程就是先把序列放进去，再在同一个窗口里跑算法，不需要一条条单独对。

　　3、如果是参考序列核对，就不要走普通多序列比对

　　当你的任务是重测序确认、突变筛查、克隆验证这类工作时，更适合直接打开参考序列，然后点【Analyze】→【Align to Reference】。官方把这个功能定位为Sequence Confirmation，支持把ABI、SCF、ALF这类测序文件或普通序列一起贴到参考序列上看差异。

　　4、读段加进去后，用【Align】并确认类型

　　在【Align to Reference】窗口里，先点【Add Seqs】把读段导入，再点【Align】执行比对。官方教程里明确提到，做常规核对时要把Alignment Type设成Sequence Confirmation，这样系统会按参考序列核对的逻辑去排布样本读段。

　　5、做编码区DNA比对时，可以先切到翻译模式

　　如果你比的是编码区DNA，不想让同义突变把碱基层面的对齐搅得太乱，可以在比对窗口里点【Mode】，选择【VirtualAA】或【NA&VirtualAA】。MacVector官方说明，这种模式下算法会按翻译后的氨基酸来做比对，再把结果反映回DNA序列上，适合看保守区和阅读框是否稳定。

　　6、比完以后别只看编辑区

　　MacVector的多序列比对窗口不只一个Editor视图。官方说明里提到，除了Editor，还可以看Matrix、Guide Tree、Consensus等结果页，所以比对结束后，最好顺手看一下相似度矩阵和树形关系，别只盯着颜色块判断结果好不好。

　　二、MacVector比对参数如何选择更稳定

　　参数要稳，前提是算法先选对。MacVector官方对不同算法和不同窗口的定位其实很清楚，多序列比对和参考序列核对用的不是同一套思路，所以参数也不能混着调。最省事的办法，通常不是一开始就大幅改参数，而是先用默认值跑一轮，再看结果要不要微调。

　　1、常规多序列比对，先从默认算法和默认值起步

　　官方入门文档给出的直接做法，就是先用默认设置运行ClustalW，也可以改用Muscle或T-Coffee。这里更稳的做法不是先改一堆细项，而是用同一批序列分别跑两种算法交叉看结果，尤其是在边界区和gap较多的位置，看它们是不是大体一致。

　　2、DNA序列需要自动翻转时，不要硬用普通多序列比对

　　MacVector官方特别提醒，ClustalW、T-Coffee和Muscle这些多序列比对算法不会自动把DNA序列翻到最优方向。要是你怀疑有反向互补、方向不统一或者读段正反混杂的情况，更稳的选择通常是【Align to Reference】或Assembler，而不是在普通多序列比对里死调参数。

　　3、参考序列核对时，Sensitivity不要随便拉高

　　在【Align to Reference】里，Sensitivity的有效范围是1到10，默认值是4。官方说明写得很清楚，这个值越大，系统在遇到错配时看得越远，更能处理短插缺和复杂局部差异，但计算量也会明显上升。对大多数质量较好、和参考序列关系较近的样本，官方建议是默认参数通常就已经合适。

　　4、Hash Value主要影响速度，不要为了快把灵敏度丢掉

　　官方教程中，Hash Value用来决定初始完美匹配搜索的长度。值更大时搜索会更快，但灵敏度会下降，短片段或局部质量一般的读段更容易被漏掉。所以样本本身不长、差异又比较多时，别只想着提速，先保住能对上再说。

　　5、Score Threshold太高，样本会直接变成未比对

　　Score Threshold的默认值是50。官方说明指出，它控制系统是否把当前匹配视为有效比对，如果最佳得分低于这个阈值，样本就会被当成不匹配，通常会以未组装或未对齐状态留在前面。也就是说，结果里出现一堆斜体未对齐序列时，不一定是文件坏了，也可能是阈值设得太严。

　　6、X Dropoff过低时，看起来整齐，但容易丢掉真实差异

　　官方对X Dropoff的解释非常直接，它控制延伸匹配时什么时候停止。如果把它压得很低，系统只愿意保留接近完美的匹配，这样虽然跑得快，但较长的低质量区或真实存在的错配片段可能会被提前截断。做实际样本核对时，这一项一般不建议往太低的方向压。

　　三、MacVector比对时哪些情况不要急着改参数

　　很多人觉得结果不理想，第一反应就是改参数。其实在MacVector里，更多时候真正影响稳定性的不是数值本身，而是场景和工具没对上。把这几个容易走偏的地方先避开，比盲调要有效得多。

　　1、只想看两条序列整体关系时，不一定非要直接跑文字比对

　　官方把Dot Plot也列为常用比较工具之一。要是你只是想先看两条序列有没有大片段相似、重复、倒位或弱相似区，可以先走【Analyze】里的Dot Plot，看整体轮廓，再决定要不要进一步做精细对齐。这样往往比一开始就陷进参数里更直观。

　　2、做重测序确认时，不要把它当成系统发育分析来做

　　官方在介绍不同比对类型时说得很明确，普通多序列比对更偏向探索序列间关系，尤其常用于蛋白序列；而DNA重测序、突变确认这类工作，第一选择通常应是【Align to Reference】。所以如果任务本身是核对，而不是比较亲缘关系，就别在MSA里反复试图调出参考核对的效果。

　　3、短引物或短探针，不要照搬长读段参数

　　MacVector官方专门举过primer对齐的例子，说明短序列需要下调Score Threshold，同时把Sensitivity提到6或更高，才能更好处理短片段里的gap和局部变化。反过来说，长读段和短引物本来就不该共用一套参数，照搬默认值不一定错，但照搬长读段思路去看短序列，通常不稳。

　　4、看到默认结果能用时，先别急着把参数改复杂

　　Sequence Confirmation教程里明确提到，多数样本质量较好、与参考关系又比较近时，默认参数通常就是理想状态，而且需要时还能通过【Defaults】回到推荐值。实际工作里，更稳的做法往往是先保留默认参数跑通，再只改最影响当前问题的一项，而不是把几项一起大改。

　　总结

　　MacVector序列比对怎么做MacVector比对参数如何选择更稳定，说到底就是先分清任务，再选入口，最后才是调参数。多序列关系分析走【DNA Alignment】或【Protein Alignment】窗口，核对参考序列走【Align to Reference】，编码区DNA可以借助【VirtualAA】提高可读性。参数上，默认值通常已经够用，真正需要动的时候，优先理解Sensitivity、Hash Value、Score Threshold和X Dropoff分别影响什么，再做小幅调整，结果通常会比一上来大改一整套参数更稳。