Welcome!
This community is for professionals and enthusiasts of our products and services. Share and discuss the best content and new marketing ideas, build your professional profile and become a better marketer together.
- 以下基于机器学习翻译,仅供参考。
Geneious包含用于最大似然树建立器PHYML,Garli,RAxML,PAUP *和FastTree的插件。在这篇文章中,我们将简要回顾哪些数据集最适合哪种数据集,哪种数据集最快,以及每种数据集都有哪些选项。有关每个程序使用的算法的详细信息,请参阅该程序的网站。如果您从这些插件发布您的结果,请记得引用您使用的程序的原作者。引用信息可以在各自的插件页面上找到。
每个程序的背景
1. PHYML
PHYML由 法国蒙彼利埃大学LIRMM的Stephane Guindon和他的同事撰写 。它于2003年首次发布,Geneious插件使用本文中描述的3.2版本 。 PHYML是其最简单,准确和速度最好的最大似然程序之一。
2. RAxML
RaxML来自 亚历山德罗Stamatakis ' Exelixis公司实验室 在海德堡研究所的理论研究,德国。它的开发目的是处理较大的数据集,其相对较低的内存消耗,先进的搜索算法和使用加速的可能性。
Geneious插件当前使用RAxML版本8.2.7,因此下表中列出的功能适用于该版本。
3. GARLI
Garli由 当前在堪萨斯大学的Derrick Zwickl撰写和维护 。它基于GAML程序(Lewis,1998)。该程序的文档可以在这里找到。
4. PAUP *
PAUP *是Dave Swofford编写的一个流行的系统发育程序,可用于构建最大简约性,距离和最大似然树。本文中有关PAUP *的信息只涉及最大似然树。PAUP * 4.0b10曾经可以从Sinnauer Associates购买,但目前正在进行重大更新。目前免费“测试”版本都可以从这里。
请注意,Geneious PAUP *插件不包含程序本身,它仅提供运行您自己的PAUP *副本的界面。您必须下载自己的PAUP *副本,并在Geneious第一次运行插件时将路径设置为可执行文件。该插件目前兼容旧4.0b10版本,新的测试alpha版本(4.0a149及以上版本)
4. FastTree
FastTree由Morgan N. Price 在 Lawrence Berkeley国家实验室的Adam Arkin小组开发 。它针对多达一百万个序列的极大比对进行了优化,并使用相邻连接,最小演化和最大似然的组合来推断近似最大似然树。这里给出了它如何工作的详细描述 ,但总的来说,FastTree使用邻居连接来获得近似的起始树,然后使用最小的演化方法来减少树的长度,然后最大似然地进一步改进树。Generate实现FastTree 2.1.5。
你可以用这些程序做什么?
所有程序都将从DNA和蛋白质比对中构建树木,但是每种方法的选择都有一些差异,总结在下表中。请注意,PAUP *将为蛋白质比对构建最大简约性和距离树,但不会构建最大似然树。
** 由于Garli设置的方式,Geneious插件中目前只实现了GTR + G + I模型的默认选项并且没有引导。但是,如果您需要其他选项(如引导或分区),请与支持人员联系,也可以根据Garli文档自行编辑Garli配置文件(位于插件文件夹中) 。
PHYML和PAUP *为您提供最广泛的模型选择,并且可以输入Modeltest比较DNA数据的大部分模型。但是,请记住,大多数这些模型都嵌套在其他程序中实施的通用时间可逆(GTR)模型中。PAUP *包含模型测试,因此您可以选择将其作为树构建过程的一部分来运行。对于PHYML和其他程序,您需要在Geneious之外运行jModeltest,然后在Geneious中手动配置适当的模型选项。
PHYML也为您提供了多种计算支持值的方法,但它对分类群数量有内在的限制。我不知道Garli,PAUP *和RAxML有相似的数据集大小约束(虽然正如您在下面看到的,这些程序都是由FastTree为超大型数据集执行的)。
例如,如果您想估计不同密码子位置或基因的不同比率,RAxML和PAUP *允许您划分数据。在PAUP *中,这是通过编辑自定义命令块完成的 - 请参阅PAUP *命令行指南以获取可以用这种方式实现的完整选项列表。
关于这些程序如何在Geneious中运行的简要说明
这些插件不能在Geneious Java运行时环境中运行,因此它们不使用分配给Geneious的RAM。相反,他们作为独立程序与Geneious提供接口。Geneious将您的文件导出到插件,运行插件程序,然后将结果导入Geneious。尽管树构建过程本身并不使用分配给Geneious的RAM,但您需要为Geneious分配足够的RAM才能处理文件的导出/导入 - 而对于大型文件,这可能需要大量数据。
哪个最快?
这个问题的答案很大程度上取决于您所拥有的数据集类型。作为一个非常普遍的规则,速度如下所示:FastTree >> RAxML> PHYML> Garli >> PAUP *。
FastTree是迄今为止拥有大量分类群的大树最快的算法。FastTree可以在几分钟内生成一个支持值为10,000的分类树,而由RAxML或Garli构建的同一棵树可能需要几天才能运行。PHYML甚至不会运行在这样大的路线上,因为它具有4000个分类群的内置截止点。然而,由FastTree生成的树是“近似最大似然”树,而对于类群之间的关系不那么明确的数据集,它们可能不如其他方法生成的树更精确地搜索树拓扑结构(请参阅 FastTree网站 ,以获得关于FastTree与PHYML与RAxML的速度和准确性的更全面讨论)。
如果您的序列非常长,但只有少数分类群(例如,如果您要从少量细菌基因组中构建树),那么RAxML和PHYML将执行FastTree。一个长度为400万个碱基(计算时没有支持值)的5个序列的树在FastTree中花了大约14分钟,而在RaxML和PHYML中花了大约1分钟。Garli不能很好地处理长序列,最好用于较短的比对。
在全部最大似然树建造者中,RAxML似乎对于来自DNA数据的大型树木来说效率最高。对于较小的数据集,PHYML是一个不错的选择,因为根据PHYML手册,PhyML的“舒适区”通常位于100-200个序列中,少于2,000个字符长。该 PHYML网站 已采用了一系列数据集的PHYML和RAxML之间的一些广泛的比较。
PAUP *是最大似然树构建器中最慢的,特别是在使用默认选项运行时。PAUP *默认情况下使用树分叉和重新连接(TBR)进行拓扑搜索,该算法比PHYML(NNI,最近邻居立交)或RAxML(快速爬山)中的默认拓扑搜索选项评估更多的树。要将PAUP *配置为使用NNI而不是PBR,请打开自定义命令块并将SWAP = NNI添加到HSEARCH行。这将大大加快速度,但速度仍然不接近PHYML或RAxML。
我怎样才能让我的树跑得更快?
简短的答案是获得一台更快的电脑。为你的treebuilder提供更多的内存不一定会加速它,但是可能意味着你可以在不耗尽内存的情况下构建更大的树。速度主要取决于处理器的速度,目前这里提到的所有树建设者都只使用一个处理器,并且无法将其配置为跨多个核心运行。
那么,哪棵树最好?
这个问题没有一个答案,因为它完全取决于数据集的性质,以及所选模型适合您的数据的程度。考虑到您选择的数据和模型,最大似然树建造者返回最高可能性正确的树,但由于算法的差异,每个程序产生的似然值不能直接进行比较。使用多种建树方法来评估树形拓扑的稳健性是一种很好的做法。