练习1:简短阅读程序集
对于第一个练习,我们将使用数据作为单个读取。如果您有双端数据,通常不会这样做,但我们只是演示汇编程序如何管理未配对的数据。选择包含读取的两个文档(正向读取和反向读取)。
现在单击 Align / Assemble 并选择De Novo Assemble ,然后在窗口左下角的Settings cog下单击Reset to defaults 。在结果部分下,选择保存程序集报告并保存到子文件夹中。保留共有序列已开启,因为我们要将它们映射回原始参考序列以查看它们匹配的程度。
Click OK. This should produce an assembly with 4 contigs which will be placed in the Assembly subfolder.
Two of these are very short, the others much longer as you can see from the Assembly Report. When there are multiple contigs produced, this document will also give you the N50 statistic which is a commonly used measure of the quality of an assembly.
要查看这些重叠群如何与原始序列对齐,请选择De Novo Assembly Tutorial 父文件夹,然后单击新的Assembly 文件夹,以查看两者的内容。按住cntrl /命令,选择Consensus Sequences 和NC_009487提取文档。现在选择对齐/组装→映射到参考。检查NC_009487是否设置为参考序列,然后单击确定。
一旦这个程序集完成后,您可以查看重叠群,并查看组合的重叠群与原始序列的映射情况。您应该看到有一个区域汇编程序遇到麻烦,无法加入它生成的最长重叠群。
在程序集中选择此区域(大约90,000)并放大。您应该看到有一部分没有重建重叠群,这就是为什么两个最长的重叠群无法连接的原因。在下一个练习中,我们将看看使用配对结束信息是否有帮助。