DNA是生物体遗传信息的主要载体,高质量的基因组参考序列是现代遗传学、分子生物学等现代生物学科的重要基础。
因此,基因组测序对探索与认识生命本质等基础生物科学研究、人类重要遗传病防治及动植物遗传育种等应用性研究均具有十分重要的意义。
基于二代测序技术,又称下一代测序技术(Next generation sequencing,NGS)的全基因组测序工程一般包含两个部分:
拼接和组装,
前者是将二代测序技术产生的DNA测序片段(Reads)拼接成小的重叠群(Contigs)的过程, read----contigs
后者是将拼接阶段产生的重叠群组装成长序列片段(Scaffolds),以及将长序列片段定位到染色体上的过程。contigs---Scaffolds
伴随着DNA测序技术的不断推陈出新[1]和单位测序成本的大幅度降低[2],如何准确、高效、快速地将scaffolds定位到染色体上逐渐成为高质量全基因组序列获得的主要挑战。