Login| Sign Up| Help| Contact|

Patent Searching and Data


Title:
METHOD AND DEVICE FOR ASSEMBLING GENOME SEQUENCE
Document Type and Number:
WIPO Patent Application WO/2012/116658
Kind Code:
A2
Inventors:
HAN CHANGLEI (CN)
CHEN WENBIN (CN)
ZHANG XIUQING (CN)
YANG HUANMING (CN)
Application Number:
PCT/CN2012/071876
Publication Date:
September 07, 2012
Filing Date:
March 02, 2012
Export Citation:
Click for automatic bibliography generation   Help
Assignee:
BGI SHENZHEN CO LTD (CN)
BGI SHENZHEN (CN)
HAN CHANGLEI (CN)
CHEN WENBIN (CN)
ZHANG XIUQING (CN)
YANG HUANMING (CN)
International Classes:
C12Q1/68; G16B30/20; G16B30/10
Attorney, Agent or Firm:
TSINGYIHUA INTELLECTUAL PROPERTY LLC (CN)
北京清亦华知识产权代理事务所(普通合伙) (CN)
Download PDF:
Claims:
权利要求书

1.一种组装基因组序列的方法, 其特征在于, 包括:

对长插入片段文库末端测序输出的短片段序列进行过滤, 以便去除不合格的序列; 将经过过滤的短片段序列与参考基因组序列进行比对, 其中, 所述经过过滤的短片段 序列包括成对短片段序列;

才艮据比对结果, 将进行比对的成对短片段序列分为 soap reads序列、 single reads序列和 unmap reads序列, 并统计各类序列的数量;

利用 soap reads序列,计算成对比对上的短片段序列在所述参考基因组序列的同一片段 上的距离, 并统计各个成对比对上的短片段序列在所述参考基因组序列上的距离分布; 以 及

在所述距离分布满足阈值要求时, 利用唯一成对比对上所述参考基因组序列的不同片 段的 single reads序列进行基因组序列的组装。

2. 根据权利要求 1所述的方法, 其特征在于, 在将经过过滤的短片段序列与参考基因 组序列进行比对之前进一步包括:

将所述经过过滤的短片段序列截取为设定长度的短片段序列。

3. 根据权利要求 1所述的方法, 其特征在于, 所述不合格的序列包括选自下列的至少 一种: 外源序列、 碱基 N数目达到预定比例的短片段序列、 含有 polyA结构的短片段序列、 低质量碱基数目达到预定个数的短片段序列、 接头污染的短片段序列、 测序中成对短片段 序列有重叠区域的短片段序列、 以及重复测到的短片段序列。

4. 根据权利要求 1所述的方法,其特征在于,所述 soap reads序列包括唯一成对比对上 所述参考基因组序列的同一片段的 soap reads序列和多次成对比对上所述参考基因组序列的 同一片段的 soap reads序列, 所述利用 soap reads序列计算成对比对上的短片段序列在所述 参考基因组序列的同一片段上的距离的步骤进一步包括:

利用唯一成对比对上所述参考基因组序列的同一片段的 soap reads序列,计算成对比对 上的短片段序列在所述参考基因组序列的同一片段上的距离。

5. 根据权利要求 1所述的方法, 其特征在于, 所述方法进一步包括:

构建长插入片段文库; 以及

对所述长插入片段文库末端进行测序, 以便获得所述输出的短片段序列。

6.一种组装基因组序列的装置, 其特征在于, 包括:

序列过滤模块, 所述序列过滤模块用于对长插入片段文库末端测序输出的短片段序列 进行过滤, 以便去除不合格的序列;

序列比对模块, 所述序列比对模块与所述序列过滤模块相连, 用于将经过过滤的短片 段序列与参考基因组序列进行比对, 其中, 所述经过过滤的短片段序列包括成对短片段序 列;

序列分类模块, 所述序列分类模块与所述序列比对模块相连, 用于根据比对结果, 将 进行比对的成对短片段序列分为 soap reads序列、 single reads序列和 unmap reads序列, 并 统计各类序列的数量;

序列长度统计模块, 所述序列长度统计模块与所述序列分类模块相连, 用于利用 soap reads序列, 计算成对比对上的短片段序列在所述参考基因组序列的同一片段上的距离, 并 统计各个成对比对上的短片段序列在所述参考基因组序列上的距离分布; 以及

序列组装模块, 所述序列组装模块分别与所述序列分类模块和所述序列长度统计模块 相连, 用于在所述距离分布满足阈值要求时, 利用唯一成对比对上所述参考基因组序列的 不同片段的 single reads序列进行基因组序列的组装。

7. 根据权利要求 6所述的装置, 其特征在于, 所述装置进一步包括:

序列截取模块, 所述序列截取模块分别与所述序列过滤模块和所述序列比对模块相连, 用于在将经过过滤的短片段序列与参考基因组序列进行比对之前, 将所述经过过滤的短片 段序列截取为设定长度的短片段序列。

8. 根据权利要求 6所述的装置, 其特征在于, 所述不合格的序列包括选自下列的至少 一种: 外源序列、 碱基 N数目达到预定比例的短片段序列、 含有 polyA结构的短片段序列、 低质量碱基数目达到预定个数的短片段序列、 接头污染的短片段序列、 测序中成对短片段 序列有重叠区域的短片段序列、 以及重复测到的短片段序列。

9. 根据权利要求 6所述的装置,其特征在于,所述 soap reads序列包括唯一成对比对上 所述参考基因组序列的同一片段的 soap reads序列和多次成对比对上所述参考基因组序列的 同一片段的 soap reads序歹1 J ,

其中,

所述序列长度统计模块进一步包括利用所述唯一成对比对上所述参考基因组序列的同 一片段的 soap reads序列,计算所述成对比对上的短片段序列在所述参考基因组序列的同一 片段上的距离,统计各个所述成对比对上所述参考基因组序列同一片段的 soap reads序列在 所述参考基因组序列上的距离分布;

所述序列组装模块进一步包括在所述距离分布满足阈值要求时, 利用唯一成对比对上 所述参考基因组序列的不同片段的 single reads序列进行基因组序列的组装。

10. 根据权利要求 6所述的装置, 其特征在于, 所述装置进一步包括:

序列接收模块, 所述序列接收模块与所述序列过滤模块相连, 用于接收长插入片段文 库末端测序后的序列。

Description:
組装基因組序列的方法和装置

优先权信息

本申请请求 2011 年 3 月 2 日向中国国家知识产权局提交的、 专利申请号为 201110049885.0的专利申请的优先权和权益, 并且通过参照将其全文并入此处。 技术领域

本发明涉及生物信息技术领域, 特别地, 涉及一种组装基因组序列的方法和装置。 背景技术

随着新一代测序技术诸如 454 ( Roche ) 、 Solexa ( Illumina ) 和 SOLiD ( ABI ) 的 诞生, 在测序通量迅速提升的同时, 测序成本急剧下降。 新一代测序技术极大地推动了 基因组学的发展。 大量物种的全基因组序列被发表, 其中包括 James Watson的个人基 因组、 第一个亚洲人的基因组、 以及大熊猫和黄瓜的基因组等。

新一代测序仪器的每一轮测序都能产生百万计 的短片段序列。通常,对一个基因组 进行完全测序, 需要进行多轮这样的测序工作, 这也就意味着, 为了获得一份完整的全 基因组图谱, 必须对数百万甚至是数十亿的短小片段序列进 行作图、 定位和拼接。

因而, 目前的基因组序列的组装手段仍有待改进。 发明内容

本发明是基于发明人的下列发现而完成的:

目前, 在利用新一代测序技术进行测序时, 所产生的都是长约 25bp~100bp左右的 短片段序列, 这些短片段序列都是待测样品大片段的某一部 分, 如何将测序得到的海量 短片段序列数据组装还原为大片段数据给后续 的信息分析工作提出了极大的挑战。在现 有技术中, 由于测序时产生的片段序列非常短, 所以需要通过非常大的运算量才能完成 对大片段数据的还原。

同时, 作为衡量基因组图谱质量之一的片段长度 N50 ( N50为将所有的组装得到的 序列从大到小排列起来并按长度相加,当相加 得到的长度为所有组装得到的序列总长的 百分之五十时的那条组装序列的长度, 关于 N50的详细描述可以参考 Miller et al. 2010. Assembly algorithms for next generation sequencing data. Genomics.95 ( 6 ) : 315-327 , 通 过参照将其并入本文) 指标也会受到实验中所能构建文库的插入片段 长度的限制。 本发明旨在至少解决现有技术中存在的技术问 题之一。

为此, 本发明提出了可以用于组装基因组序列的方法 和装置, 以便能够利用长插入片 段文库末端测序后的短片段序列进行基因组序 列的组装, 从而提高组装效率和效果。

根据本发明的一方面, 本发明提出了一种组装基因组序列的方法。 根据本发明的实施 例, 该组装基因组序列的方法包括对长插入片段文 库末端测序输出的短片段序列进行过滤 以去除不合格的序列; 将经过过滤的短片段序列与参考基因组序列进 行比对; 根据比对结 果将进行比对的成对短片段序列分为 soap reads序列、 single reads序列和 unmap reads序列, 并统计各类序列的数量; 利用 soap reads序列, 计算成对比对上的短片段序列在参考基因组 序列的同一片段上的距离, 并统计各个成对比对上的短片段序列在参考基 因组序列上的距 离分布; 在距离分布满足阈值要求时, 利用唯一成对比对上参考基因组序列的不同片 段的 single reads序列进行基因组序列的组装。 由此, 可以提高组装基因组序列的效率和效果。

根据本发明的实施例, 组装基因组序列的方法还可以具有下列附加技 术特征: 根据本发明的一个实施例, 所述经过过滤的短片段序列包括成对段片段序 列。 由此, 可以进一步提高组装因组的效率。

根据本发明的一个实施例, 在将经过过滤的短片段序列与参考基因组序列 进行比对之 前进一步包括: 将所述经过过滤的短片段序列截取为设定长度 的短片段序列。 由此, 可以 进一步提高组装因组的效率。

根据本发明的一个实施例, 所述不合格的序列包括选自下列的至少一种: 外源序列、 碱基 N数目达到预定比例的短片段序列、 含有 polyA结构的短片段序列、 低质量碱基数目 达到预定个数的短片段序列、 接头污染的短片段序列、 测序中成对短片段序列有重叠区域 的短片段序列、 以及重复测到的短片段序列。 由此, 可以进一步提高组装基因组的效率。

根据本发明方法的一个实施例, soap reads序列包括唯一成对比对上参考基因组序列 同一片段的 soap reads序列和多次成对比对上参考基因组序列的 一片段的 soap reads序列, 利用 soap reads序列计算成对比对上的短片段序列在参考 因组序列的同一片段上的距离的 步骤进一步包括: 利用唯一成对比对上参考基因组序列的同一片 段的 soap reads序列, 计算 成对比对上的短片段序列在参考基因组序列的 同一片段上的距离。 由此, 可以进一步提高 组装因组的效率。

根据本发明方法的一个实施例, 所述方法进一步包括: 构建长插入片段文库; 以及对 长插入片段文库末端进行测序, 以便获得所述输出的短片段序列。 有利于组装出更长的基 因组序列片段。

根据本发明的另一方面, 本发明提出了一种组装基因组序列的装置。 根据本发明的实 施例, 该组装基因组序列的装置包括: 序列过滤模块, 所述序列过滤模块用于对长插入片 段文库末端测序输出的短片段序列进行过滤, 以便去除不合格的序列; 序列比对模块, 所 述序列比对模块与所述序列过滤模块相连, 用于将经过过滤的短片段序列与参考基因组序 列进行比对, 其中, 所述经过过滤的短片段序列包括成对短片段序 列; 序列分类模块, 所 述序列分类模块与所述序列比对模块相连, 用于根据比对结果, 将进行比对的成对短片段 歹 ^"为 soap reads / *歹 、 single reads / *歹 口 unmap reads / *歹 , i¾i十 H/ *歹 1 j 序列长度统计模块, 所述序列长度统计模块与所述序列分类模块相 连, 用于利用 soap reads 序列, 计算成对比对上的短片段序列在所述参考基因 组序列的同一片段上的距离, 并统计 各个成对比对上的短片段序列在所述参考基因 组序列上的距离分布; 以及序列组装模块, 所述序列组装模块分别与所述序列分类模块和 所述序列长度统计模块相连, 用于在所述距 离分布满足阈值要求时,利用唯一成对比对上 所述参考基因组序列的不同片段的 single reads 序列进行基因组序列的组装。 利用该组装基因组序列的装置能够有效地实施 前述组装基因 组的方法, 从而能够利用长插入片段文库末端测序后的短 片段序列进行基因组序列的组装, 从而提高组装效率和效果。

根据本发明的实施例, 组装基因组序列的装置还可以具有下列附加技 术特征: 根据本发明的一个实施例, 本发明的组装基因组序列的装置进一步包括: 序列截取模 块, 所述序列截取模块分别与所述序列过滤模块和 所述序列比对模块相连, 用于在将经过 过滤的短片段序列与参考基因组序列进行比对 之前, 将所述经过过滤的短片段序列截取为 设定长度的短片段序列。

根据本发明装置的另一实施例, 不合格的序列包括选自下列的至少一种: 外源序列、 碱基 N数目达到预定比例的短片段序列、 含有 polyA结构的短片段序列、 低质量碱基数目 达到预定个数的短片段序列、 接头污染的短片段序列、 测序中成对短片段序列有重叠区域 的短片段序列、 以及重复测到的短片段序列。 由此, 可以进一步提高组装因组的效率。

根据本发明装置的又一实施例, soap reads序列包括唯一成对比对上参考基因组序列 同一片段的 soap reads序列和多次成对比对上参考基因组序列的 一片段的 soap reads序列, 其中, 进一步利用唯一成对比对上参考基因组序列的 同一片段的 soap reads序列, 计算成对 比对上的短片段序列在参考基因组序列的同一 片段上的距离。 由此, 可以评估文库质量, 进一步提高组装基因组的效率。

根据本发明装置的一个实施例, 本发明的组装基因组序列的装置进一步包括: 序列接 收模块, 该序列接收模块与所述序列过滤模块相连, 用于接收长插入片段文库末端测序后 的序列。 由此, 可以进一步提高组装因组的效率。 根据本发明实施例的组装基因组序列的方法和 装置, 由于对长插入片段文库末端进行 测序, 能够利用测序数据中包含的相对现有技术更远 距离的序列关系构建出更长的基因组 序列片段, 进而提高了基因组组装的效果。

本发明的附加方面和优点将在下面的描述中部 分给出,部分将从下面的描述中变得 明显, 或通过本发明的实践了解到。 附图说明

本发明的上述和 /或附加的方面和优点从结合下面附图对实施 的描述中将变得明 显和容易理解, 其中:

图 1是本发明组装基因组序列方法的一个实施例 流程示意图;

图 2是本发明组装基因组序列方法的另一实施例 流程示意图;

图 3是本发明组装基因组序列方法的又一实施例 流程示意图;

图 4是本发明组装基因组序列方法的再一实施例 流程示意图;

图 5是本发明组装基因组序列方法的再一实施例 的文库质量评估示意图; 图 6是本发明组装基因组序列装置的一个实施例 结构示意图;

图 7是本发明组装基因组序列装置的又一实施例 结构示意图; 以及

图 8是本发明组装基因组序列装置的再一实施例 结构示意图。 发明详细描述

下面详细描述本发明的实施例, 所述实施例的示例在附图中示出, 其中自始至终相 同或类似的标号表示相同或类似的元件或具有 相同或类似功能的元件。下面通过参考附 图描述的实施例是示例性的, 仅用于解释本发明, 而不能理解为对本发明的限制。

下面首先参考附图对本发明的组装基因组序列 的方法进行详细描述。

参考图 1 , 才艮据本发明的实施例, 组装基因组序列方法可以包括以下步骤: 在本发明中所使用的术语 "长插入片段" 的长度并不受特别限制, 可以为现有技术能够达 到的任何插入长度, 例如可以长达至少 200kb, 例如可以为 40kb-200kb, 例如可以为大约 100kb-200kb。 本领域技术人员利用现有的载体, 可以容易地得到上述长插入片段。 例如, fosmid和细菌人工染色体( Bacterial Artificial Chromosome , BAC )是基因组研究中可用的 大片段克隆, BAC通常可以插入大约 lOOkb - 200kb的片段, fosmid通常可以插入大约 40kb 的片段, BAC和 fosmid不仅具有插入片段长的特点, 而且还具有非常好的稳定性, 因而他 们是基因组学研究的重要工具, 在基因图位克隆、 基因分析、 结构性变异和基因组组装中 有重要的作用。 根据本发明的实施例, 需要去除的不合格的序列的类型并不受特别限 制。 根据本发明的一些实例, 可以将选自下列的至少一种除去: 外源序列 (例如可以为由实验 引入的外源序列例如, 各种接头序列)、 碱基 N数目达到预定比例(例如至少 10% )的短片 段序列、 含有 polyA结构的短片段序列、 低质量碱基数目达到预定个数的短片段序列 (测 序时给出的质量值小于或等于 20的碱基为低质量碱基, 质量值大于 20的碱基数目占总碱 基数的比例(Q20 )小于等于 0.7的序列)、 接头污染(例如, 与接头序列至少 10bp比对上, 且错配数不多于 3 个) 的短片段序列、 测序中成对短片段序列有重叠区域的短片段序 列、 以及重复测到的短片段序列 (测序中成对的短片段序列完全一样的情况被 定义为重复)。 在 本文中所使用的术语 "成对短片段序列" 的含义是, 在从同一个短片段序列的两端分别向 内侧测序, 这两个相向的序列被称为成对短片段序列;

S104, 将经过过滤的短片段序列与参考基因组序列进 行比对。 根据本发明的实施例, 进行比对的手段并不受特别限制, 例如可以釆用已知的 soap、 bwa等方法和相关的软件进 行比对。 根据本发明的实施例, 所得到的经过过滤的短片段序列中包括成对短 片段序列;

S106, 根据比对结果, 将进行比对的成对短片段序列分为 soap reads序列、 single reads 序列和 unmap reads序列, 并统计各类序列的数量;

在本发明中, 所使用的术语 "soap reads序列" 的含义是指成对存在且都能比对到参考 基因组序列的同一组装片段上的短序列。 术语 " single reads序列 " 的含义是指成对的两条 短序列中只有一条比对到参考基因组序列的不 同组装片段上的短序列; 术语 "unmap reads" 指成对的两条短序列均未比对到参考基因组序 列的组装片段上的短序列;

S108,由于 soap reads序列为成对存在且都能比对到参考基因组 列的同一组装片段上 的短序列,所以可以利用 soap reads序列计算成对比对上的短片段序列在参考 因组序列的 同一片段上的距离 (即, 计算 soap reads序列的长度), 并统计各个成对比对上的短片段序 列在参考基因组序列上的距离分布情况;

S110, 在距离分布满足阈值要求 (根据本发明的实施例, 阈值的具体数值并不受特别 限制, 可以由本领域技术人员针对具体的测序环境来 通过有限次实验获得。 例如用 fosmid 构建文库时, 阙值为距离在 30kb-50kb之间的序列比例大于 85 % ) 时, 可以利用唯一成对 比对上参考基因组序列的不同组装片段的 single reads序列进行基因组序列的组装;

具体地,可以利用唯一成对比对上参考基因组 序列的不同组装片段的 single reads序列, 按照测序文库的内在序列长度和空间关系, 连接相邻的基因组序列片段, 以提升基因组组 装效果。

该实施例由于对长插入片段文库末端进行测序 , 因而能够利用测序数据中包含的相对 现有技术更远距离的序列关系构建出更长的基 因组序列片段, 进而提高了基因组组装的效 果。

下面, 参考图 2描述根据本发明又一实施例的组装基因组序 的方法。

如图 2所示, 根据本发明实施例的组装基因组序列可以包括 以下步骤: 具体地, 可以将测序后的短片段序列与实验引入的外源 序列 (例如, 各种接头序列) 比对, 若序列中存在外源序列, 则认为是不合格序列, 并将不合格的短片段序列去除, 此 外, 不合格的序列还可以包括下列的至少一种: 碱基 N数目达到预定比例的短片段序列、 含有 polyA结构的短片段序列、 低质量碱基数目达到一定程度(例如, 40个碱基) 的短片 段序列、 有接头污染(例如, 与接头序列至少 10bp比对上, 且错配数不多于 3个) 的短片 段序列、 测序中成对的短片段序列有重叠区域(例如, 测序中成对的短片段序列的重叠区 域至少为 10bp, 且错配比例低于 10% ) 的短片段序列、 重复测到的短片段序列 (测序中成 对的短片段序列完全一样被定义为重复的短片 段序列)。 最后对于头部或者末端质量比较差 的短片段序列将直接截掉;

S204, 将经过过滤的短片段序列截取为设定长度的短 片段序列;

具体地, 为了提高比对的准确性, 进行比对的片段的长度应基本相同, 允许有一定的 浮动范围 (其中, 浮动范围可根据需求自行设置), 针对长度在正常范围内的测序片段测序 所获得的短片段序列被称为正常短序列, 反之被称为异常短序列。 根据本发明的实施例, 设定长度为至少 40bp如果进行比对的序列长度过短, 一方面降低了比对的效率, 另一方面 会使 N50性能降低), 比对时一条短序列上允许的最大不匹配数要尽 量小, 以保证比对的精 确性;

S206 , 将过滤后的短片段序列与参考基因组序列进行 比对, 根据本发明的实施例, 进 行比对的手段并不受特别限制, 例如可以釆用已知的 soap、 bwa等方法和相关的软件进行 比对。 根据本发明的实施例, 所得到的经过过滤的短片段序列中包括成对短 片段序列;

S208,根据比对结果将进行比对的成对短片段 列分为 soap reads序列、 single reads序 列和 unmap reads序列, 并统计各类序列的数量;

S210, 依据比对结果, 提取只有一条与参考基因组序列比对上, 并且只比对到参考基 因组序列上一次的 single reads, 以保证比对结果的特异性;

S212,利用 soap reads序列计算成对比对上的短片段序列在参考 因组序列的同一片段 上的距离, 并统计各个成对比对上的短片段序列在参考基 因组序列上的距离分布;

S214, 在距离分布满足阈值要求时 (根据本发明的实施例, 阈值的具体数值并不受特 别限制,可以由本领域技术人员针对具体的测 序环境来通过有限次实验获得。例如用 fosmid 构建文库时, 阙值为, 距离在 30kb-50kb之间的序列比例大于 85 % ), 利用 S210中提取出 的唯一成对比对上参考基因组序列的不同片段 的 single reads序列进行基因组序列的组装。

在该实施例中, 对待比对的片段长度进行了一定的限定, 要求待比对序列的长度在设 定范围内, 以保证比对的精度和效率。 下面参考图 3 , 描述根据本发明又一实施例的组装基因组序列 的方法。 如图 3所示, 组 装基因组序列的方法可以包括以下步骤:

S304 , 将过滤后的短片段序列与参考基因组序列进行 比对;

S306,根据比对结果将进行比对的成对短片段序 分为 soap reads序列、 single reads序 列和 unmap reads序列, 并统计各类序列的数量, 其中, soap reads序列又可以包括唯一成 对比对上参考基因组序列的同一片段的 soap reads序列和多次成对比对上参考基因组序列的 同一片段的 soap reads序歹 1 J;

S308,利用唯一成对比对上参考基因组序列的同 片段的 soap reads序列计算成对比对 上的短片段序列在参考基因组序列的同一片段 上的距离, 并统计各个成对比对上的短片段 序列在参考基因组序列上的距离分布;

S310, 在距离分布满足阈值要求时, 利用唯一成对比对上参考基因组序列的不同片 段 的 single reads序列进行基因组序列的组装。

该实施例利用唯一成对比对上参考基因组序列 的同一片段的 soap reads序列计算成对比 对上的短片段序列在参考基因组序列的同一片 段上的距离, 可以准确地统计出长插入片段 文库的质量, 从而提高基因组序列组装的准确率。

下面参考图 4, 描述根据本发明再一实施例的组装基因组序列 的方法。

如图 4所示, 根据本发明实施例的组装基因组序列的方法可 以包括以下步骤:

S402, 构建长插入片段文库。 根据本发明的实施例, 构建长插入片段文库的方法并不 受特别限制。 根据本发明的具体实施例, 构建长插入片段文库可以釆用下列步骤:

( 1 ) 随机打断:

将插入有待测 DNA的载体进行随机打断处理, 以获得大于载体长度的随机打断片段, 然后将得到的随机打断片段进行末端修复, 使末端平端化, 其中, 载体是质粒, 具体地, 可以是 fosmid质粒、 BAC质粒或 cosmid质粒等;

( 2 )分离:

将(1 ) 中的末端修复后的被随机打断的片段进行分离 , 得到大于载体长度的随机打断 片段;

( 3 )环化:

将(2 ) 中得到的随机打断片段进行自身连接, 形成环形分子, 然后清除未自身连接的 片段;

( 4 )扩增:

根据载体序列设计引物, 扩增环形分子中存留的待测基因的核酸片段, 即, (1 ) 中所 述的待测核酸片段的末端序列;

S404, 对长插入片段文库末端进行测序;

具体地, 将上述(4 ) 中得到的扩增产物进行末端修复, 以使末端平端化, 然后加上测 序用接头, 选择新一代测序平台进行测序, 为了保证所需的基因组覆盖度, 测序得到的碱 基总量需在基因组大小的 3倍以上;

S408 , 将经过过滤的短片段序列与参考基因组序列进 行比对;

S410,才艮据比对结果将进行比对的成对短片段 列分为 soap reads序列、 single reads序 列和 unmap reads序列, 并统计各类序列的数量;

S412,利用 soap reads序列计算成对比对上的短片段序列在参考 因组序列的同一片段 上的距离, 并统计各个成对比对上的短片段序列在参考基 因组序列上的距离分布;

S414, 在距离分布满足阈值要求时, 利用唯一成对比对上参考基因组序列的不同片 段 的 single reads序列进行基因组序列的组装。

该实施例结合长插入片段文库(例如, fosmid, BAC 等) 的文库构建方法以及新一代 测序技术有效地利用新一代测序技术在构建基 因组上的速度快和廉价的特点、 利用 fosmid 及 BAC文库插入片段长度远远大于普通建库方法的 优势、 以及利用测序数据中包含的更远 距离的序列拓朴关系构建出更长的基因组序列 片段, 显著提高基因组图谱的质量。

在本发明组装基因组序列方法的再一实施例中 , 以果蝇基因组的 X染色体为例, 其参 考基因组序列的来源为: The National Center for Biotechnology Information , 网址为: http://www.ncbi.nlm.nih.gov/ , 基因组编号为: gilll6010291lreflNC_004354.3l Drosophila melanogaster chromosome X, complete sequence。

可以利用 Maq simulate软件对果蝇基因组 X染色体进行模拟测序, 测序得到的结果作 为测序数据。其中,需要为 Maq simulate设置如下参数: -d, -N, -1 , -2, fql , fq2和 simupars.dat。 下面对各个参数做详细的说明: -d参数为测序片段长度,分别设置为 500、 2000、 5000、 40000; -N 参数表示测序所要获得的短片段序列总数, 该参数根据测序深度(Sequencing Depth )来确定, 测序深度是评价测序质量的指标之一, 表示测序得到的碱基总量(bp ) 与 基因组大小 (Genome ) 的比值, 利用公式: N=测序深度 x参考基因组总长度 /(2 x reads 长 度)来计算。 该实施例的模拟测序深度为 50 X (即, 50倍的参考基因组序列长度), 参考基 因组总长度为 22M, 短片段序列长度设为 lOObp; -1 , -2参数为进行比对的双末端短片段序 列 1和短片段序列 2的长度, 本例中设为 lOObp; fql , fq2为输出文件, 将模拟测序后的测 序数据(即,短片段序列 1和短片段序列 2 )分别以 fasta格式存入 fal , fa2文件中; simupars.dat 为 maq simulate软件的系统文件, 决定短片段序列的长度和质量值。

在该实施例中, 可以使用各种常见短序列比对软件(如 soap、 bwa等)将这些序列与 相应物种的参考基因组序列进行相似性比对, 进行比对的测序片段的长度应基本相同, 允 许有一定的浮动范围 (浮动范围可才艮据需求自行设置, 例如可以为上下浮动 10% ), 针对长 度在正常范围内的测序片段测序所获得的短片 段序列被称为正常短序列, 反之被称为异常 短序列, 进行比对的短片段序列的最低长度为 40bp, 比对时一条短序列上允许的最大不匹 配数要尽量小, 以保证精确比对。

在本实施例中, 进行比对时使用的软件为 soap2, 在进行比对时需要设置如下参数: -P, -a, -b, -D, -o , -2, -u, -m, -x, -s, -1, -v。

下面对各个参数做详细的说明: -P参数表示该脚本运行时所需要的内存; -a参数表示 双末端测序时输入文件为重测序得到的 fql文件(短片段序列 1所在的文件;); -b参数表示 双末端测序时输入文件为重测序得到的 fq2文件(短片段序列 2所在的文件;); -D参数表示 参考基因组序列以 fasta文件格式输入(其中, fasta序列文件的第一行是由大于号 ">"或分号 ";"开头的任意文字说明, 用于序列标记; 从第二行开始为序列本身, 只允许使用既定的核 苷酸或氨基酸编码符号); 输出参数有三项, -0参数, 输出的结果为比对到参考基因组上的 成对短片段序列, 其输出文件以 .soap为后缀; -2参数, 其输出结果为成对的短片段序列中 只有一条比对到参考基因组序列上, 输出文件以. single作为后缀; -u参数, 其输出结果是 未比对到参考基因组序列的成对短片段序列, 输出文件以. unmap作为后缀; 不设置 -t参数 以保留短片段序列的原始 ID号; -m, -X参数为插入片段的浮动范围, -m参数指测序片段 的浮动下限, 即, 负百分数 X测序片段长度, -X参数指测序片段的浮动上限, 即, 正百分 数 X测序片段长度。 在该实施例中, 为了最大范围的找到符合条件的短片段序列, 将测序 片段的浮动范围放宽, -m, -X参数分别设置为测序片段长度 ± 0.88 X测序片段长度; -S参数 为最小比对长度, 设置为 40; -1参数为初始比对上的种子序列 (长片段序列的 3' 端错误率 高, 从 5' 端设定一定长度的序列作为种子序列)长度, 设置为 32; -V参数表示比对时一 条短片段序列上允许的最大不匹配数, 在该实施例中该参数设置要尽量小, 以保证精确比 对。 此外, 需要注意对 soap参数设置的一致性。

如图 5所示,横坐标 "insert size ( kb )"表示 "插入片段的长度",纵坐标 "Uniq PE Reads" 表示 "唯一的成对末端测序结果", 使用这些数据进行文库插入片段大小的分析, 结果显示 插入片段大小正常, 波动范围在可接受范围内。 利用定位到参考基因组序列的不同组装片 段上的序列信息进行基因组的辅助组装, 将果蝇基因组的模拟组装结果的 N50从 0.32M提 高到 1.48M。

在本发明组装基因组序列方法的再一实施例中 , 首先, 随机打断云岭黑山羊基因组

DNA, 确保被打断的 DNA大小不低于 36Kb, 通过分离、 环化、 扩增过程得到云岭黑山羊 的 fosmid文库。 然后, 使用新一代测序技术得到 14.4M对原始测序短序列, 其中, 高通量 测序技术可以为 Illumina GA测序技术, 也可以为现有的其他高通量测序技术。

接下来, 利用生物信息学方法除去测序时的接头序列以 及末端质量较差数据, 随后去 掉重复测到的序列,最终得到 2,611,182对具有唯一特征的序列。在具有唯一特 征的序列中, 共有 1,589,054对具有唯一匹配位点定位到同一个 scaffold (参考基因组序列的组装片段) 上。 其中, 定位到同一个 scaffold上且距离小于 500bp的数目为 338,255对, 定位到同一个 scaffold上且距离大于 10 kb的数目为 232,544对, 其中 30kb - 50 kb的有 206,697对, 占 86.42%。 使用这些数据进行文库插入片段大小的分析, 结果显示插入片段大小正常, 波动 范围在可接受范围内。 定位到不同 scaffold上的有 18,255对, 利用这 18,255对进行基因组 的辅助组装, 可以将云岭黑山羊的组装结果的 N50从 2.2M提高到 3.1M。

在本发明组装基因组序列方法的再一实施例中 , 首先, 随机打断北极熊基因组 DNA, 确保被打断的 DNA大小不低于 36Kb, 通过分离、 环化、 扩增过程得到北极熊的 fosmid文 库。 然后, 使用新一代测序技术得到 14.4M对原始测序短序列, 其中, 高通量测序技术可 以为 Illumina GA测序技术, 也可以为现有的其他高通量测序技术。

接下来, 利用生物信息学方法除去测序时的接头序列以 及末端质量较差数据, 随后去 掉重复测到的序列, 最终得到 15,225,082对序列, 在 15,225,082对序列中, 共有 2,865,235 对具有唯一匹配位点定位到同一个 scaffold上,其中,距离小于 500bp的数目为 209,600对, 定位到同一个 scaffold上且距离大于 10 kb的数目为 531,028对, 其中 30kb _ 50kb的有 520,897对, 占 98.09% , 定位到不同 scaffold上的有 185,888对, 利用这 185,888对进行基 因组的辅助组装, 可以将 N50从 2.3M提高到 6.5M。 下面, 参考图 6描述根据本发明实施例的组装基因组序列的 置。 如图 6所示, 该装 置 10可以包括: 序列过滤模块 11、 序列比对模块 12、 序列分类模块 13、 序列长度统计模 块 14以及序列组装模块 15。 根据本发明的实施例, 序列过滤模块 11用于对长插入片段文 括选自下列的至少一种: 外源序列、 碱基 N数目达到预定比例的短片段序列、 含有 polyA 结构的短片段序列、 低质量碱基数目达到预定个数的短片段序列、 接头污染的短片段序列、 测序中成对短片段序列有重叠区域的短片段序 列、 以及重复测到的短片段序列。 根据本发 明的实施例, 序列比对模块 12与序列过滤模块 11相连, 用于将过滤后的短片段序列与参 考基因组序列进行比对。 根据本发明的实施例, 序列分类模块 13与序列比对模块 12相连, 用于才艮据比对结果将进行比对的成对短片段 序列分为 soap reads序列、 single reads序列和 unmap reads序列, 并统计各类序列的数量, 其中, soap reads序列指成对存在且都能比对到 参考基因组序列的同一组装片段上的短序列; single reads序列指成对的两条短序列中只有 一条比对到参考基因组序列的不同组装片段上 的短序列; unmap reads指成对的两条短序列 均未比对到参考基因组序列的组装片段上的短 序列。 根据本发明的实施例, 序列长度统计 模块 14与序列分类模块 13相连,用于利用 soap reads序列计算成对比对上的短片段序列在 参考基因组序列的同一片段上的距离, 并统计各个成对比对上的短片段序列在参考基 因组 序列上的距离分布。 序列组装模块 15 , 与序列分类模块 13和序列长度统计模块 14相连, 用于在距离分布满足阈值要求时, 利用唯一成对比对上参考基因组序列的不同片 段的 single reads序列, 按照测序文库的内在序列长度和空间关系连接 相邻的基因组序列片段进行基因 组序列的组装。

利用根据本发明实施例的组装基因组序列的装 置, 能够有效地实施前述的组装基因组 序列的方法, 由此, 该实施例由于釆用了长插入片段文库, 因而能够利用测序数据中包含 的相对现有技术更远距离的序列关系构建出更 长的基因组序列片段, 进而提高了基因组组 装的效果。

才艮据本发明的实施例, soap reads序列可以包括唯一成对比对上参考基因组 列的同一 片段的 soap reads序列和多次成对比对上参考基因组序列的 一片段的 soap reads序列, 由 此,可以进一步利用所述唯一成对比对上所述 参考基因组序列的同一片段的 soap reads序列, 计算所述成对比对上的短片段序列在所述参考 基因组序列的同一片段上的距离。 根据本发 明的实施例, 该计算处理可以通过序列长度统计模块 14来进行。

该实施例利用唯一成对比对上参考基因组序列 的同一片段的 soap reads序列计算成对比 对上的短片段序列在参考基因组序列的同一片 段上的距离, 可以准确地统计出长插入片段 文库的质量, 文库质量高利于准确的组装。

参考图 7, 描述才艮据本发明又一实施例的组装基因组序 列的装置。 如图 7所示, 该装置 20在图 6所示装置 10的基础上进一步包括:

序列截取模块 21 , 与序列过滤模块 11和序列比对模块 12相连, 用于在进行序列比对 之前, 将过滤后的短片段序列截取为设定长度的短片 段序列, 其中, 最低比对长度为 40bp。

在该实施例中, 对待比对的片段长度进行了一定的限制, 要求待比对序列的长度在设 定范围内, 从而可以保证比对的精度和效率。

图 8是本发明组装基因组序列装置的再一实施例 结构示意图。 如图 8所示, 该组装 基因组序列的装置 30在与图 6所示装置 10的基础上, 进一步包括: 序列接收模块 31 , 与 序列过滤模块 11相连, 用于接收长插入片段文库末端测序后的序列。

需要说明的是在本文中所使用的术语 "相连" 应做广义理解, 可以是直接相连, 也可 以是间接相连, 只要实现功能上的衔接即可。

需要说明的是, 在本发明中分别针对组装基因组序列的方法和 装置描述了多个实施例, 本领域技术人员可以理解, 在特定实施例中的各个技术特征可以直接或者 经过适应性改造 后适用于其他实施例中。 为描述方便, 再次不在赘述各个实施例特征的互相组合。 工业实用性

根据本发明实施例的组装基因组序列的方法和 装置, 可以有效地用于组装基因组序列。

尽管本发明的具体实施方式已经得到详细的 描述, 本领域技术人员将会理解。 根据已 经公开的所有教导, 可以对那些细节进行各种修改和替换, 这些改变均在本发明的保护范 围之内。 本发明的全部范围由所附权利要求及其任何等 同物给出。

在本说明书的描述中, 参考术语 "一个实施例"、 "一些实施例"、 "示意性实施例"、 "示 例"、 "具体示例"、 或 "一些示例" 等的描述意指结合该实施例或示例描述的具体 特征、 结 构、 材料或者特点包含于本发明的至少一个实施例 或示例中。 在本说明书中, 对上述术语 的示意性表述不一定指的是相同的实施例或示 例。 而且, 描述的具体特征、 结构、 材料或 者特点可以在任何的一个或多个实施例或示例 中以合适的方式结合。