Welcome!

This community is for professionals and enthusiasts of our products and services. Share and discuss the best content and new marketing ideas, build your professional profile and become a better marketer together.

Hide Intro Register

Geneious中应该使用哪种最大似然树生成器？

提供于

Johnson

在 18-5-20 上午9:28 • 11,266 浏览次数

Flag

回复
备注
共享

这个问题已经包含在官方文档.

--Johnson--

Johnson

开 18-5-20 上午9:29

以下基于机器学习翻译，仅供参考。
Geneious包含用于最大似然树建立器PHYML，Garli，RAxML，PAUP *和FastTree的插件。在这篇文章中，我们将简要回顾哪些数据集最适合哪种数据集，哪种数据集最快，以及每种数据集都有哪些选项。有关每个程序使用的算法的详细信息，请参阅该程序的网站。
如果您从这些插件发布您的结果，请记得引用您使用的程序的原作者。引用信息可以在各自的插件页面上找到。
每个程序的背景
1. PHYML
PHYML由法国蒙彼利埃大学LIRMM的Stephane Guindon和他的同事撰写  。它于2003年首次发布，Geneious插件使用本文中描述的3.2版本  。  PHYML是其最简单，准确和速度最好的最大似然程序之一。
2. RAxML
RaxML来自  亚历山德罗Stamatakis '  Exelixis公司实验室  在海德堡研究所的理论研究，德国。它的开发目的是处理较大的数据集，其相对较低的内存消耗，先进的搜索算法和使用加速的可能性。
Geneious插件当前使用RAxML版本8.2.7，因此下表中列出的功能适用于该版本。
3. GARLI
Garli由当前在堪萨斯大学的Derrick Zwickl撰写和维护  。它基于GAML程序（Lewis，1998）。该程序的文档可以在这里找到。
4. PAUP *
PAUP *是Dave Swofford编写的一个流行的系统发育程序，可用于构建最大简约性，距离和最大似然树。本文中有关PAUP *的信息只涉及最大似然树。PAUP * 4.0b10曾经可以从Sinnauer Associates购买，但目前正在进行重大更新。目前免费“测试”版本都可以从这里。
请注意，Geneious PAUP *插件不包含程序本身，它仅提供运行您自己的PAUP *副本的界面。您必须下载自己的PAUP *副本，并在Geneious第一次运行插件时将路径设置为可执行文件。该插件目前兼容旧4.0b10版本，新的测试alpha版本（4.0a149及以上版本）
4. FastTree
FastTree由Morgan N. Price  在   Lawrence Berkeley国家实验室的Adam Arkin小组开发  。它针对多达一百万个序列的极大比对进行了优化，并使用相邻连接，最小演化和最大似然的组合来推断近似最大似然树。这里给出了它如何工作的详细描述  ，但总的来说，FastTree使用邻居连接来获得近似的起始树，然后使用最小的演化方法来减少树的长度，然后最大似然地进一步改进树。Generate实现FastTree 2.1.5。
你可以用这些程序做什么？
所有程序都将从DNA和蛋白质比对中构建树木，但是每种方法的选择都有一些差异，总结在下表中。请注意，PAUP *将为蛋白质比对构建最大简约性和距离树，但不会构建最大似然树。
** 由于Garli设置的方式，Geneious插件中目前只实现了GTR + G + I模型的默认选项并且没有引导。但是，如果您需要其他选项（如引导或分区），请与支持人员联系，也可以根据Garli文档自行编辑Garli配置文件（位于插件文件夹中）  。
PHYML和PAUP *为您提供最广泛的模型选择，并且可以输入Modeltest比较DNA数据的大部分模型。但是，请记住，大多数这些模型都嵌套在其他程序中实施的通用时间可逆（GTR）模型中。PAUP *包含模型测试，因此您可以选择将其作为树构建过程的一部分来运行。对于PHYML和其他程序，您需要在Geneious之外运行jModeltest，然后在Geneious中手动配置适当的模型选项。
PHYML也为您提供了多种计算支持值的方法，但它对分类群数量有内在的限制。我不知道Garli，PAUP *和RAxML有相似的数据集大小约束（虽然正如您在下面看到的，这些程序都是由FastTree为超大型数据集执行的）。
例如，如果您想估计不同密码子位置或基因的不同比率，RAxML和PAUP *允许您划分数据。在PAUP *中，这是通过编辑自定义命令块完成的 - 请参阅PAUP *命令行指南以获取可以用这种方式实现的完整选项列表。
关于这些程序如何在Geneious中运行的简要说明
这些插件不能在Geneious Java运行时环境中运行，因此它们不使用分配给Geneious的RAM。相反，他们作为独立程序与Geneious提供接口。Geneious将您的文件导出到插件，运行插件程序，然后将结果导入Geneious。尽管树构建过程本身并不使用分配给Geneious的RAM，但您需要为Geneious分配足够的RAM才能处理文件的导出/导入 - 而对于大型文件，这可能需要大量数据。
哪个最快？
这个问题的答案很大程度上取决于您所拥有的数据集类型。作为一个非常普遍的规则，速度如下所示：FastTree >> RAxML> PHYML> Garli >> PAUP *。
FastTree是迄今为止拥有大量分类群的大树最快的算法。FastTree可以在几分钟内生成一个支持值为10,000的分类树，而由RAxML或Garli构建的同一棵树可能需要几天才能运行。PHYML甚至不会运行在这样大的路线上，因为它具有4000个分类群的内置截止点。然而，由FastTree生成的树是“近似最大似然”树，而对于类群之间的关系不那么明确的数据集，它们可能不如其他方法生成的树更精确地搜索树拓扑结构（请参阅  FastTree网站  ，以获得关于FastTree与PHYML与RAxML的速度和准确性的更全面讨论）。
如果您的序列非常长，但只有少数分类群（例如，如果您要从少量细菌基因组中构建树），那么RAxML和PHYML将执行FastTree。一个长度为400万个碱基（计算时没有支持值）的5个序列的树在FastTree中花了大约14分钟，而在RaxML和PHYML中花了大约1分钟。Garli不能很好地处理长序列，最好用于较短的比对。
在全部最大似然树建造者中，RAxML似乎对于来自DNA数据的大型树木来说效率最高。对于较小的数据集，PHYML是一个不错的选择，因为根据PHYML手册，PhyML的“舒适区”通常位于100-200个序列中，少于2,000个字符长。该  PHYML网站  已采用了一系列数据集的PHYML和RAxML之间的一些广泛的比较。
PAUP *是最大似然树构建器中最慢的，特别是在使用默认选项运行时。PAUP *默认情况下使用树分叉和重新连接（TBR）进行拓扑搜索，该算法比PHYML（NNI，最近邻居立交）或RAxML（快速爬山）中的默认拓扑搜索选项评估更多的树。要将PAUP *配置为使用NNI而不是PBR，请打开自定义命令块并将SWAP = NNI添加到HSEARCH行。这将大大加快速度，但速度仍然不接近PHYML或RAxML。
我怎样才能让我的树跑得更快？
简短的答案是获得一台更快的电脑。为你的treebuilder提供更多的内存不一定会加速它，但是可能意味着你可以在不耗尽内存的情况下构建更大的树。速度主要取决于处理器的速度，目前这里提到的所有树建设者都只使用一个处理器，并且无法将其配置为跨多个核心运行。
那么，哪棵树最好？
这个问题没有一个答案，因为它完全取决于数据集的性质，以及所选模型适合您的数据的程度。考虑到您选择的数据和模型，最大似然树建造者返回最高可能性正确的树，但由于算法的差异，每个程序产生的似然值不能直接进行比较。使用多种建树方法来评估树形拓扑的稳健性是一种很好的做法。

备注
Flag

新的讨论

随时了解最新的技术快讯

关于这个技术问答社区

Geneious最新版生物信息学软件相关的技术文档、技术手册、技术教程、技术资料分享和问答阅读指南

问题工具

1 关注者

统计数据

问: 18-5-20 上午9:28
看到: 11266 时间
最后更新： 18-5-20 上午9:29