练习2b:检查程序集并提取共识
从组装子文件夹打开aru2重叠群,了解正向和反向序列是如何组装的。
在序列查看器右侧的“ 显示” 选项卡下,检查调用共有序列的选项。当从同一个基因组装正向和反向序列时,从每个基地的最高质量序列中调用共识是合理的,因此选择共识下的最高质量。
在高级选项卡下,将基本号码设置为全部序列。这将显示来自每个序列上原始序列读数的碱基编号,并使您能够看到两个序列是如何组装的。您可以看到R序列现在处于相反的方向。
在Graphs 选项卡下,选中Coverage 和Identity 框。覆盖图显示共有序列基于多少个序列,并且同一性图表指示参与序列是否相同。尽管您仍然可以看到质量差的序列已被标记为修剪(粉红色条),但您可以看到汇编器没有使用此序列调用共有序列或计算覆盖率 - 只有该区域中的单个良好序列具有已被使用。
对于Aru2,只有一个碱基在正向和反向序列之间存在分歧。放大并找到这个基地。您可以使用cntrl /命令D键盘快捷键快速跳转到存在分歧的地方。在这个位置,反向序列中的碱基被错误地称为 - 它应该是A,但被称为C.
如果您愿意,您可以在此位置编辑错误序列调用,但由于我们选择基于最高质量调用共有序列,所以共有序列中的碱基是正确的。这是用于下游分析的共有序列,因此如果共识是正确的,则不必编辑个体阅读中的每个不同意见。选择共识序列并单击提取。命名您提取的序列(例如aru2 consensus)并单击确定。
现在打开ort1程序集。这个序列有几个杂合碱基被注释,应该检查它们以确保它们被正确地调用。单击ort1_R序列上的第一个杂合性注释(在共有序列的基数68处)并放大到100%。在这个碱基上,单个“G”峰已被正确调用,所以这被错误地鉴定为杂合碱基,因为与相邻的“C”碱基重叠很小。通过右键单击并删除此注释并选择注释→删除。
现在使用cntrl / command-D跳转到下一个杂合基。在此基础上(共有序列上的第170位),在正向和反向读数中存在真正的双峰,其中C和T峰叠加在彼此之上,表明这是真正的杂合基。被称为共有序列的碱基应该是“Y”,表示该位置含有C和T核苷酸(见IUPAC注释)。
现在检查本装配中剩余的杂合碱基,并根据需要添加IUPAC模糊编码来编辑共有序列,以反映杂合位置。尝试进行任何更改之前,请勿忘记单击允许编辑。保存更改并选择是当系统询问是否要应用更改原来的顺序,然后选择保守序列并提取它。
打开每个其他重叠群,并检查正向和反向阅读和杂合体碱基之间的不一致。如果需要,编辑它们,然后提取每个序列的共有序列。