做同源基因比较、蛋白家族分析或者样本亲缘关系初步判断时,系统发育树不能直接从一堆原始序列开始“画树”。MacVector系统发育树怎么构建MacVector系统发育树分支结果怎么看,比较稳的做法是先完成多序列比对,再从比对结果生成树,最后结合分支长度、分组关系和Bootstrap支持值判断结果是否可靠。MacVector的系统发育树重建是从Multiple Sequence Alignment编辑器进入的,可选择Neighbor Joining和UPGMA等算法,也能设置Best Tree或Bootstrap计算模式。
一、MacVector系统发育树怎么构建
系统发育树的质量,前面很大一部分取决于多序列比对。序列本身来源不一致、长度差太多、两端低质量区域没有处理,后面即使树能生成,分支也可能只是把噪声放大了。
1、先准备可比对的序列
构树前要确认序列类型一致。DNA序列和蛋白序列不要混在一起;同一组里也尽量选择同源片段,比如同一个基因、同一个蛋白家族区域,或者同一段保守结构域。若有些序列明显短很多,先判断它们是不是截短片段,不要直接和全长序列放在一起。
2、建立多序列比对
可以新建DNA Alignment或Protein Alignment窗口,再把序列文件导入;也可以直接打开已有的FASTA、PHYLIP、NEXUS等多序列文件。MacVector支持把相关DNA或Protein序列放进MSA编辑器中处理,并可使用ClustalW进行自动比对。
3、运行比对并人工检查
完成导入后运行Align,生成多序列比对结果。这个时候不要马上构树,先看两端是否有大段缺口,中间是否存在明显错位,保守区域有没有对齐。若只是少数序列两端多出一截低质量片段,可以适当修剪;如果关键结构域都没对齐,系统发育树就没有太大解释价值。
4、进入构树功能
在MSA编辑器中点击【Create Tree】图标,或者使用【Analyze】→【Construct Tree】进入系统发育树构建窗口。MacVector也提供TREE按钮入口,构树后还能在Phylogeny窗口中旋转节点,必要时让比对序列顺序跟随树的分支排列。
5、选择算法和计算模式
常规分析可以先用Neighbor Joining做距离法构树,想快速查看相似性聚类时也可以试UPGMA。若只是做初步分组,用Best Tree速度较快;若要判断分支支持情况,就应选择Bootstrap模式。MacVector还允许设置距离校正和gap处理参数,这些设置会影响树形结果,特别是序列差异较大或缺口较多时。
二、MacVector系统发育树分支结果怎么看
树生成以后,不要只看哪几条序列排在一起。系统发育树表达的是基于当前序列和当前算法得到的关系假设,不等于直接证明物种演化历史。看树时要分清Tip、Node、Branch、Root,以及当前显示的是phylogram还是cladogram。
1、先看哪些序列聚成一组
树末端的名称一般是样本名或序列名,内部节点代表这些序列在树上的共同分支点。两条序列如果共享一个较近的内部节点,说明它们在这次分析中被归到相近分组。不要只看屏幕上左右距离,因为MacVector可以旋转节点,旋转后视觉位置会变,但分支连接关系不变。
2、区分树形显示方式
MacVector的Phylogeny窗口可以控制显示为phylogram、slanted cladogram或regular cladogram,也能选择rooting节点和其他显示参数。
如果使用phylogram,分支长度通常更适合观察序列差异距离;如果是cladogram,重点更多在分支拓扑,也就是谁和谁先聚在一起。
3、重点看内部节点支持值
如果选择Bootstrap构树,树上常会显示内部节点的支持值。这个数值不是某条序列的准确率,而是该分支在重复抽样分析中被支持的比例。EMBL-EBI的系统发育教程中也提到,Bootstrap或其他置信度估计通常显示在树的内部枝上;较高支持值说明这个分组在当前数据下更稳定,低支持值则要谨慎解释。
4、不要机械套用一个固定阈值
很多人会把Bootstrap低于某个数字就直接判为“不可信”,这种做法有点粗。一般来说,80%以上的支持值常被看作比较有参考意义,但这也要看序列长度、物种选择、比对质量和模型是否合适。若某个关键分支只有50%或60%左右,就不适合写成很确定的亲缘关系,只能说当前数据支持不足。
5、看长分支时要回头查序列
某条序列分支特别长,可能代表它确实差异较大,也可能是序列质量差、比对错位、片段不完整或选错同源区域。遇到这种情况,不要急着下结论。回到MSA窗口检查该序列是否有大量gap、异常碱基、提前终止或明显不同的结构域,必要时把它暂时移除,再重新构树比较。
三、构树结果用于分析时还要注意什么
MacVector里的系统发育树适合做同源关系查看、序列分组和结果展示,但正式解释时还要结合实验目的。尤其是物种演化、基因家族扩张、突变来源判断这类问题,不能只靠一棵树就给出结论。
1、保留比对文件和树文件
构树完成后,建议同时保存MSA文件和Phylogeny结果。只保存图片不够,后续如果要调整gap处理、换算法、加入新序列,就需要重新回到比对文件。MacVector的多序列比对结果可以输出为多种格式,也能继续用于系统发育重建。
2、尝试不同参数进行对照
同一批序列可以分别用Neighbor Joining和UPGMA跑一遍,再比较主要分支是否稳定。若两种算法下核心分组基本一致,说明结果相对稳一些;如果树形差异很大,通常要回头检查序列选择、比对质量和gap处理,不要只挑一棵看起来顺眼的树。
3、给树选择合理Root
如果只是看序列相似性,未必一定要强调演化方向;若要讨论谁更接近祖先状态,就需要考虑外群序列。MacVector可以在Phylogeny窗口中控制root节点,但root选得不合适,树的方向解释就容易偏。没有外群或没有明确背景时,写分析结论应保守一些。
4、导出前整理显示效果
用于汇报或文章配图时,可以在Phylogeny窗口里调整树形样式、节点显示、序列名称和分支排列。若名称太长,先把序列ID整理短一些;若分支很多,可以选择更清楚的cladogram样式。MacVector还支持按树结果重新排序MSA,这对回头检查相近序列的差异位点很有帮助。
总结
总结来看,MacVector系统发育树构建要从多序列比对开始,先把DNA或Protein序列对齐并检查gap,再通过【Create Tree】或【Analyze】→【Construct Tree】选择Neighbor Joining、UPGMA、Best Tree或Bootstrap。分支结果解读时,重点看分组关系、分支长度、root设置和Bootstrap支持值,不要把树上相邻位置简单等同于确定亲缘关系。把比对质量和树形结果一起核对,MacVector系统发育树怎么构建MacVector系统发育树分支结果怎么看,才会变成一个可复核的分析流程,而不是只生成一张树图。