MacVector系统发育树怎么构建 MacVector系统发育树分支结果怎么看-MacVector中文网站

　　做同源基因比较、蛋白家族分析或者样本亲缘关系初步判断时，系统发育树不能直接从一堆原始序列开始“画树”。MacVector系统发育树怎么构建MacVector系统发育树分支结果怎么看，比较稳的做法是先完成多序列比对，再从比对结果生成树，最后结合分支长度、分组关系和Bootstrap支持值判断结果是否可靠。MacVector的系统发育树重建是从Multiple Sequence Alignment编辑器进入的，可选择Neighbor Joining和UPGMA等算法，也能设置Best Tree或Bootstrap计算模式。

　　一、MacVector系统发育树怎么构建

　　系统发育树的质量，前面很大一部分取决于多序列比对。序列本身来源不一致、长度差太多、两端低质量区域没有处理，后面即使树能生成，分支也可能只是把噪声放大了。

　　1、先准备可比对的序列

　　构树前要确认序列类型一致。DNA序列和蛋白序列不要混在一起；同一组里也尽量选择同源片段，比如同一个基因、同一个蛋白家族区域，或者同一段保守结构域。若有些序列明显短很多，先判断它们是不是截短片段，不要直接和全长序列放在一起。

　　2、建立多序列比对

　　可以新建DNA Alignment或Protein Alignment窗口，再把序列文件导入；也可以直接打开已有的FASTA、PHYLIP、NEXUS等多序列文件。MacVector支持把相关DNA或Protein序列放进MSA编辑器中处理，并可使用ClustalW进行自动比对。

　　3、运行比对并人工检查

　　完成导入后运行Align，生成多序列比对结果。这个时候不要马上构树，先看两端是否有大段缺口，中间是否存在明显错位，保守区域有没有对齐。若只是少数序列两端多出一截低质量片段，可以适当修剪；如果关键结构域都没对齐，系统发育树就没有太大解释价值。

　　4、进入构树功能

　　在MSA编辑器中点击【Create Tree】图标，或者使用【Analyze】→【Construct Tree】进入系统发育树构建窗口。MacVector也提供TREE按钮入口，构树后还能在Phylogeny窗口中旋转节点，必要时让比对序列顺序跟随树的分支排列。

　　5、选择算法和计算模式

　　常规分析可以先用Neighbor Joining做距离法构树，想快速查看相似性聚类时也可以试UPGMA。若只是做初步分组，用Best Tree速度较快；若要判断分支支持情况，就应选择Bootstrap模式。MacVector还允许设置距离校正和gap处理参数，这些设置会影响树形结果，特别是序列差异较大或缺口较多时。

　　二、MacVector系统发育树分支结果怎么看

　　树生成以后，不要只看哪几条序列排在一起。系统发育树表达的是基于当前序列和当前算法得到的关系假设，不等于直接证明物种演化历史。看树时要分清Tip、Node、Branch、Root，以及当前显示的是phylogram还是cladogram。

　　1、先看哪些序列聚成一组

　　树末端的名称一般是样本名或序列名，内部节点代表这些序列在树上的共同分支点。两条序列如果共享一个较近的内部节点，说明它们在这次分析中被归到相近分组。不要只看屏幕上左右距离，因为MacVector可以旋转节点，旋转后视觉位置会变，但分支连接关系不变。

　　2、区分树形显示方式

　　MacVector的Phylogeny窗口可以控制显示为phylogram、slanted cladogram或regular cladogram，也能选择rooting节点和其他显示参数。

　　如果使用phylogram，分支长度通常更适合观察序列差异距离；如果是cladogram，重点更多在分支拓扑，也就是谁和谁先聚在一起。

　　3、重点看内部节点支持值

　　如果选择Bootstrap构树，树上常会显示内部节点的支持值。这个数值不是某条序列的准确率，而是该分支在重复抽样分析中被支持的比例。EMBL-EBI的系统发育教程中也提到，Bootstrap或其他置信度估计通常显示在树的内部枝上；较高支持值说明这个分组在当前数据下更稳定，低支持值则要谨慎解释。

　　4、不要机械套用一个固定阈值

　　很多人会把Bootstrap低于某个数字就直接判为“不可信”，这种做法有点粗。一般来说，80%以上的支持值常被看作比较有参考意义，但这也要看序列长度、物种选择、比对质量和模型是否合适。若某个关键分支只有50%或60%左右，就不适合写成很确定的亲缘关系，只能说当前数据支持不足。

　　5、看长分支时要回头查序列

　　某条序列分支特别长，可能代表它确实差异较大，也可能是序列质量差、比对错位、片段不完整或选错同源区域。遇到这种情况，不要急着下结论。回到MSA窗口检查该序列是否有大量gap、异常碱基、提前终止或明显不同的结构域，必要时把它暂时移除，再重新构树比较。

　　三、构树结果用于分析时还要注意什么

　　MacVector里的系统发育树适合做同源关系查看、序列分组和结果展示，但正式解释时还要结合实验目的。尤其是物种演化、基因家族扩张、突变来源判断这类问题，不能只靠一棵树就给出结论。

　　1、保留比对文件和树文件

　　构树完成后，建议同时保存MSA文件和Phylogeny结果。只保存图片不够，后续如果要调整gap处理、换算法、加入新序列，就需要重新回到比对文件。MacVector的多序列比对结果可以输出为多种格式，也能继续用于系统发育重建。

　　2、尝试不同参数进行对照

　　同一批序列可以分别用Neighbor Joining和UPGMA跑一遍，再比较主要分支是否稳定。若两种算法下核心分组基本一致，说明结果相对稳一些；如果树形差异很大，通常要回头检查序列选择、比对质量和gap处理，不要只挑一棵看起来顺眼的树。

　　3、给树选择合理Root

　　如果只是看序列相似性，未必一定要强调演化方向；若要讨论谁更接近祖先状态，就需要考虑外群序列。MacVector可以在Phylogeny窗口中控制root节点，但root选得不合适，树的方向解释就容易偏。没有外群或没有明确背景时，写分析结论应保守一些。

　　4、导出前整理显示效果

　　用于汇报或文章配图时，可以在Phylogeny窗口里调整树形样式、节点显示、序列名称和分支排列。若名称太长，先把序列ID整理短一些；若分支很多，可以选择更清楚的cladogram样式。MacVector还支持按树结果重新排序MSA，这对回头检查相近序列的差异位点很有帮助。

总结

　　总结来看，MacVector系统发育树构建要从多序列比对开始，先把DNA或Protein序列对齐并检查gap，再通过【Create Tree】或【Analyze】→【Construct Tree】选择Neighbor Joining、UPGMA、Best Tree或Bootstrap。分支结果解读时，重点看分组关系、分支长度、root设置和Bootstrap支持值，不要把树上相邻位置简单等同于确定亲缘关系。把比对质量和树形结果一起核对，MacVector系统发育树怎么构建MacVector系统发育树分支结果怎么看，才会变成一个可复核的分析流程，而不是只生成一张树图。