Geneious中读取下一代测序数据对基因组De Novo组装教程

基于机器学习翻译,仅供参考。

本教程将使用短读取下一代测序数据来执行金黄色葡萄球菌基因组的部分重新组装这些基因组是高度重复的,对于短阅读的组装者来说是一个挑战,无需额外的信息就可以进行重建。

大多数新一代测序平台,如Illumina,Solid,Ion Torrent和454都提供了双端测序的选项。这会从相同的DNA片段中产生两个序列读数,这些片段被已知的插入片段长度分开,这有助于数据的组装。维基百科对如何在这里生成和使用配对的数据提供了很好的描述

练习1:简短阅读汇编在本练习中,您将汇编短期阅读数据,而不使用配对结束信息,并通过将结果与您尝试重建的基因组的原始部分进行比较来了解汇编程序的效果。

练习2:组装双端数据接下来,您将使用双端信息重新运行组件。您将学习如何设置配对读取,并了解额外信息如何影响程序集。

练习3:共识校正最后,您将看到从程序集产生的共有序列,并将其与您尝试重建的基因组的原始部分对齐。然后,您将学习如何修改共识生成器来处理由原始数据中的读取错误引入的任何不正确的碱基调用。

练习1:简短阅读程序集

对于第一个练习,我们将使用数据作为单个读取。如果您有双端数据,通常不会这样做,但我们只是演示汇编程序如何管理未配对的数据。选择包含读取的两个文档(正向读取和反向读取)。

现在单击  Align / Assemble 并选择De Novo Assemble ,然后在窗口左下角的Settings cog下单击Reset to defaults 结果部分下,选择保存程序集报告保存到子文件夹中保留共有序列已开启,因为我们要将它们映射回原始参考序列以查看它们匹配的程度。

Click OK. This should produce an assembly with 4 contigs which will be placed in the Assembly subfolder.

Two of these are very short, the others much longer as you can see from the Assembly Report. When there are multiple contigs produced, this document will also give you the N50 statistic which is a commonly used measure of the quality of an assembly.

要查看这些重叠群如何与原始序列对齐,请选择De Novo Assembly Tutorial 父文件夹,然后单击新的Assembly 文件夹,以查看两者的内容。按住cntrl /命令,选择Consensus Sequences NC_009487提取文档。现在选择对齐/组装→映射到参考检查NC_009487是否设置为参考序列,然后单击确定

一旦这个程序集完成后,您可以查看重叠群,并查看组合的重叠群与原始序列的映射情况。您应该看到有一个区域汇编程序遇到麻烦,无法加入它生成的最长重叠群。

在程序集中选择此区域(大约90,000)并放大。您应该看到有一部分没有重建重叠群,这就是为什么两个最长的重叠群无法连接的原因。在下一个练习中,我们将看看使用配对结束信息是否有帮助。

练习2:组装双端数据

所提供的数据实际上是125bp的双末端读数,插入大小约为500bp。为了在Geneious中使用双端读取,需要将这两组读取组合为一个配对读取文件,其中包含有关其方向和距离的额外信息。为此,请选择正向和反向读取文档,然后从顶部菜单中选择序列→设置配对读取...。您有两个序列表,请选择序列对列表,然后选择预期距离为500的正向/反向(Illumina短读取试剂盒)然后单击确定

现在你有一个Paired Reads 文件,所以你可以选择这个文件,然后再次运行Align / Assemble→De Novo Assemble ... 和以前相同的设置。这一次,汇编器将能够使用配对信息来帮助它定位读取的位置并希望重现原始序列。

完成后,将制作的共有序列与先前相同的方式映射回NC_009487序列:选择De Novo Assembly Tutorial 父文件夹和新的Paired Reads Assembly 文件夹,然后选择NC_009487提取和新的共识序列,然后单击对齐/组装→映射到参考

您现在应该可以看到最后的重叠群几乎是原始序列的全长,但“ 统计” 选项卡将显示序列不是100%相同的。您可以使用CTRL / CMD + D单步执行错误,或查看身份图以检查错误。由于原始数据中的错误,会有几个位置在装配中不明确。在最后的练习中,我们将在共识中纠正这些基调。

练习3:共识纠正

返回上一练习中配对读数组合文件夹并打开重叠群。为了确定变异的位置,选择Annotate&Predict→Find Variations / SNPs 并重置为默认值,然后将Minimum Coverage 更改4,因为覆盖率很低的区域会对变体调用做出贡献。这些可能是组装不良或阅读错误的产物,但将它们称为SNP将使我们能够轻松找到它们。保留最小变化频率设置并取消选中最大变量P值最小股数偏置P值因为我们只是使用SNP查找器更容易地在共识代中查找这些错误。点击确定

一旦变异已被调用,在共有序列中的第340 位选择它们中的第一个,然后放大该基地。这一组变体是由于读取结束附近的缺口缺失的低覆盖区域中的未对准引起的。由于使用的评分方法,对齐器难以完成读取结束时的差距。

单击“注释和跟踪” 选项卡中“变体”注释控件旁边的右箭头,直到找到基于18033的变体。

该基因在共有序列中被称为'R',因为读数在该位置包含A和G的混合物。进入“显示”选项卡中的共识设置,并根据0% - 多数改变设置以调用

您现在将看到该基地在共识中被称为A。逐步通过其余变体来检查在共有序列中调用的碱基是否反映了读取中的大多数碱基,然后通过选择整个序列并单击提取将共有序列提取到新文档

注意:对于大多数数据集,通过“最高质量”调用共识将产生最准确的结果,并且是推荐的选项。但是,对于本教程,我们使用了一个小的低覆盖率数据集,因此使用“0%多数”可产生较少的歧义。

将新的共有序列重新映射到NC_009487参考序列,并查看您现在是否能够找到任何分歧。“ 统计信息” 选项卡应显示对齐现在为100%,并且您已更正原始数据中的读取错误。

您现在已经完成了De Novo Assembly Tutorial。

需要更多的信息?

本文件頁面已被提取的Q&A部分,在那裡您可以討論,並得到反饋。
相關問題