Login| Sign Up| Help| Contact|

Patent Searching and Data


Title:
METHOD AND DEVICE FOR DETECTING MICRODELETION IN CHROMOSOME STS AREA
Document Type and Number:
WIPO Patent Application WO/2013/127049
Kind Code:
A1
Abstract:
A method and a device for detecting microdeletion in a chromosome sequence tagged site (STS) area. The method comprises: selecting an STS area on chromosome, and designing according to a DNA sequence in the STS area to obtain a corresponding capture probe; hybridizing the capture probe and a multi-sample DNA hybrid library, so as to capture the DNA sequence in the STS area in the multi-sample; sequencing the captured DNA sequence in the STS area in the multi-sample of the corresponding capture probe, and obtaining sequencing data; analyzing the sequencing data through a mathematical statistics method, and obtaining a result regarding microdeletion in the chromosome STS area of each sample according to the analysis conclusion.

Inventors:
LIU XIAO (CN)
ZHANG JUNJIE (CN)
XU HUAIQIAN (CN)
SU ZHENG (CN)
ZHANG RUIFANG (CN)
WANG JUN (CN)
WANG JIAN (CN)
YANG HUANMING (CN)
Application Number:
PCT/CN2012/071648
Publication Date:
September 06, 2013
Filing Date:
February 27, 2012
Export Citation:
Click for automatic bibliography generation   Help
Assignee:
BGI SHENZHEN CO LTD (CN)
BGI SHENZHEN (CN)
LIU XIAO (CN)
ZHANG JUNJIE (CN)
XU HUAIQIAN (CN)
SU ZHENG (CN)
ZHANG RUIFANG (CN)
WANG JUN (CN)
WANG JIAN (CN)
YANG HUANMING (CN)
International Classes:
C12Q1/68
Foreign References:
KR20090112235A2009-10-28
Other References:
META-GENOMICS DNA SEQUENCING, 20 December 2009 (2009-12-20), XP008174376, Retrieved from the Internet
See also references of EP 2821501A4
MITCHELL, TOM M.: "Machine Learning.", 1997, MCGRAW-HILL
J. SAMBROOK ET AL.: "Molecular Cloning: A Laboratory Manual", SCIENCE PRESS
"NimbleGen Arrays User's Guide", 7 July 2009, ROCHE NIMBLEGEN, INC.
Attorney, Agent or Firm:
CHINA WISPRO INTELLECTUAL PROPERTY LLP. (CN)
深圳市威世博知识产权代理事务所(普通合伙) (CN)
Download PDF:
Claims:
权利要求

1.一种基于染色体序列标签位点 STS区域微缺失检测的方法,其特征在于: 所述方法包括:

选取染色体上的 STS区域, 根据所述 STS区域的 DNA序列, 设计得到相 应的捕获探针;

将所述捕获探针与多样本的 DNA混合文库进行杂交, 以捕获多样本中 STS 区域的 DNA序列;

将所述捕获的相应捕获探针的多样本中 STS区域的 DNA序列进行测序,得 到测序数据;

采用数理统计方法对所述测序数据进行分析, 根据所述分析结论, 获得每 个样本中染色体 STS区域 缺失的结果。

2.根据权利要求 1所述的方法, 其特征在于: 所述采用数理统计方法对所述 测序数据进行分析, 根据所述分析结论, 获得每个样本中染色体 STS区域微缺 失的结果的步骤包括:

将样本的 STS区域的测序深度值进行均一化, 得到均一化的深度值; 根据得到的样本的 STS区域的均一化的深度值, 采用数理统计方法, 检测 所述样本 STS区域的深度值异常值, 并获得所述样本 STS区域微缺失的结果。

3.根据权利要求 2所述的方法, 其特征在于: 所述将样本的 STS 区域的测 序深度值进行均一化的步骤包括: 将所有样本中相同区域的深度值除以每个样 本深度值的平均值, 得到所述样本区域均一化的深度值。

4.根据权利要求 2 所述的方法, 其特征在于: 所述根据得到的样本的 STS 区域的均一化的深度值, 采用数理统计方法, 检测所述样本 STS区域的深度值 异常值, 并获得所述样本 STS区域微缺失的结果的步骤包括:

根据得到的所有样本的同一区域的均一化的深度值, 计算所述所有样本的 同一区域的均一化深度值的平均值以及方差; 根据所述所有样本的同一区域的均一化深度值的平均值以及方差, 获得所 述同一区域所有非离群样本的正态分布曲线;

根据所述正态分布曲线, 计算每个样本在每个区域在特定深度值时的概率 值;

根据每个样本在相应区域在特定深度值时的概率值, 设置第一概率值阈值, 若所述样本所在区域在特定深度值时的概率值小于所述概率值第一概率值阈值, 则获得所述样本区域有微缺失的结果 Rl。

5.根据权利要求 4所述的方法, 其特征在于: 所述根据每个样本在相应区域 在特定深度值时的概率值, 设置第一概率值阈值, 若所述样本所在区域在特定 深度值时的概率值小于所述概率值第一概率值阈值, 则获得所述样本区域有微 缺失的结果 R1的步骤之后还包括:

对所述样本区域有微缺失的结果 R1进行实验验证, 根据实验验证结果, 设 置第二概率值阈值, 其中, 所述第二概率值阈值小于第一概率值阈值;

若所述样本区域在特定深度值时的概率值小于所述第二概率值阈值, 则获 得所述样本区域有微缺失的结果 R2。

6.根据权利要求 2 所述的方法, 其特征在于: 所述根据得到的样本的 STS 区域的均一化的深度值, 采用数理统计方法, 检测所述样本 STS区域的深度值 异常值, 并获得所述样本 STS区域微缺失的结果的步骤包括:

根据得到的样本的 STS区域的均一化的深度值, 计算所述样本区域均一化 的深度值与所有样本的深度值的中位数的比值 D/S;

根据得到的样本的 STS区域的均一化的深度值, 计算所述样本区域均一化 的深度值与所有区域的深度值的中位数的比值 D/R;

将所述比值 D/S 通过 ID3算法训练出第一比值阈值, 将所述比值 D/R通过 ID3算法训练出第二比值阈值;

若样本区域的比值 D/S 大于第一比值阈值, 则获得所述样本区域没有 缺 失的结果; 若样本区域的比值 D/S小于第一比值阈值, 并且样本区域的比值 D/R大于 第二比值阈值, 则获得所述样本区域没有微缺失的结果;

若样本区域的比值 D/S小于第一比值阈值, 并且样本区域的比值 D/R小于 第二比值阈值, 则获得所述样本区域有微缺失的结果。

7.根据权利要求 2 所述的方法, 其特征在于: 所述根据得到的样本的 STS 区域的均一化的深度值, 采用数理统计方法, 检测所述样本 STS区域的深度值 异常值, 并获得所述样本 STS区域微缺失的结果的步骤包括:

根据得到的所有样本的同一区域的均一化的深度值, 计算所述所有样本的 同一区域的均一化深度值的平均值以及方差;

根据所述所有样本的同一区域的均一化深度值的平均值以及方差, 获得所 述同一区域所有非离群样本的正态分布曲线;

根据所述正态分布曲线, 计算每个样本在每个区域在特定深度值时的概率 值;

根据每个样本在每个区域在特定深度值时的概率值, 设置第三概率值阈值, 若所述样本区域在特定深度值时的概率值小于所述第三概率值阈值, 则获得所 述样本区域有微缺失的结果 R3;

计算所述结果 R3中样本区域均一化的深度值与所有样本的深度值的中位数 的比值 D/S;

计算所述结果 R3中样本区域均一化的深度值与所有区域的深度值的中位数 的比值 D/R;

将所述比值 D/S 通过 ID3算法训练出第三比值阈值, 将所述比值 D/R通过 ID3算法训练出第四比值阈值;

若样本区域的比值 D/S 大于第三比值阈值, 则获得所述样本区域没有微缺 失的结果;

若样本区域的比值 D/S小于第三比值阈值, 并且样本区域的比值 D/R大于 第四比值阈值, 则获得所述样本区域没有微缺失的结果; 若样本区域的比值 D/S小于第三比值阈值, 并且样本区域的比值 D/R小于 第四比值阈值, 则获得所述样本区域有微缺失的结果。

8.根据权利要求 1所述的方法, 其特征在于: 所述选取染色体上的 STS 区 域, 根据所述 STS区域的 DNA序列, 设计并合成相应的捕获探针的步骤包括: 在基因组数据库中查找染色体上的 STS区域的 DNA序列; 根据所述挑选到的符合捕获探针设计条件的序列, 设计并合成得到捕获探 针。

9.根据权利要求 1所述的方法, 其特征在于: 所述多样本的 DNA混合文库 的制备的步骤包括:

制备多个带有不同接头的质量控制合格的单样本的 DNA文库;

将所述多个单样本的 DNA文库按照预定比例混合;

检验所述混合的多样本的 DNA文库的质量是否合格, 若是, 即为制备的多 样本的 DNA混合文库。

10.根据权利要求 8所述的方法,其特征在于: 所述单样本的 DNA文库的制 备的步骤包括:

利用物理或化学的方法将基因组 DNA打断成预定大小的 DNA片段, 回收 所述打断的 DNA片段;

利用酶对所述回收的 DNA 片段进行末端修复, 形成补平的末端磷酸化的 DNA片段, 回收所述补平的末端磷酸化的 DNA片段;

利用酶对所述回收的补平的 DNA片段的 3,末端加上" A"碱基, 回收所述 3, 末端加上" A"碱基的 DNA片段;

使所述回收的 3,末端加上" A"碱基的 DNA 片段在酶的作用下与标签接头 Index Adapter连接, 并回收带有标签接头的 DNA片段;

以标签接头序列的引物做为引物,对所述带有标签接头的 DNA片段进行扩 增, 回收所述扩增的产物; 检验所述扩增的产物的质量控制是否合格,若是,即为制备的单样本的 DNA 文库。

11.根据权利要求 1所述的方法, 其特征在于: 所述将捕获的相应捕获探针 的多样本中 STS区域的 DNA序列进行测序, 得到测序数据的步骤之后还包括: 对所述对多样本中 STS区域的 DNA序列的测序数据进行质量控制。

12.根据权利要求 10所述的方法, 其特征在于: 所述对多样本中 STS 区域 的 DNA序列的测序数据进行质量控制的步骤包括:

对所述多样本中 STS区域的 DNA序列的测序数据中不合格的数据进行过滤, 得到合格的多样本的测序数据;

通过短序列对比软件, 将所述合格的多样本的测序数据与参考基因组序列 进行对比,并统计每个样本的测序深度的相关参数以及不同样本之间相同的 STS 区域的测序深度的相关参数;

根据所述统计得到的每个样本的测序深度的相关参数, 过滤掉不合格的样 本的测序数据, 得到合格的样本的测序数据;

根据所述统计得到的不同样本之间相同的 STS区域的测序深度的相关参数, 过滤掉不合格 STS区域的测序数据, 得到合格 STS区域的测序数据。

13.根据权利要求 11所述的方法, 其特征在于: 所述对多样本中 STS 区域 的 DNA序列的测序数据中不合格的数据进行过滤,得到合格的多样本的测序数 据的步骤包括:

通过测序数据中低质量值碱基的比例进行测序质量过滤, 若低质量值碱基 个数超过整条序列碱基个数的预定比例, 则判断为是不合格的数据, 将所述不 合格的测序数据过滤掉, 获得初步合格的第一测序数据集合;

若所述初步合格的第一测序数据集合中测序结果不确定的碱基个数超过整 条序列碱基个数的 10%, 则判断为是不合格的数据, 将所述不合格的测序数据 过滤掉, 获得初步合格的第二测序数据集合;

将所述初步合格的第二测序数据集合中所有测序数据与测序接头序列库进 行比对, 若所述初步合格的第二测序数据集合中存在测序接头序列, 则判断为 是不合格的数据, 将所述不合格的测序数据过滤掉, 获得初步合格的第三测序 数据集合;

将所述初步合格的第三测序数据集合中所有测序数据与试验中引入的所有 外源序列比对, 若所述初步合格的第三测序数据集合中存在外源序列, 则判断 为是不合格的数据, 将所述不合格的测序数据过滤掉, 获得合格的多样本的测 序数据。

14.根据权利要求 11所述的方法, 其特征在于: 所述根据统计得到的每个样 本的测序深度的相关参数, 过滤掉不合格的样本的测序数据, 得到合格的样本 的测序数据的步骤包括:

将所有样本的测序深度值按照从小到大的顺序进行排序, 利用四分位函数 及四分位数间距 IQR;

将所有样本的测序深度值在 Q1减去 1.5倍 IQR和 Q3加上 1.5倍 IQR范围 之外的不合格的样本的测序数据过滤掉, 得到合格的样本的测序数据。

15.根据权利要求 11所述的方法, 其特征在于: 所述根据统计得到的不同样 本之间相同的 STS区域的测序深度的相关参数, 过滤掉不合格 STS区域的测序 数据, 得到合格 STS区域的测序数据的步骤包括:

将不同样本之间相同的 STS区域的测序深度值按照从小到大的顺序进行排 序, 利用四分位函数确定所述排序后的不同样本之间相同的 STS区域的测序深 度值的中位数、 上四分位数 Q3以及四分位数间距 IQR;

将不同样本之间相同的 STS区域的测序深度值中位数为 0或者中位数大于 Q3加上 1.5倍 IQR的不合格的 STS区域的测序数据过滤掉, 得到合格的 STS 区域的测序数据。

16.—种基于染色体序列标签位点 STS区域微缺失检测的装置,其特征在于: 所述装置包括: 捕获探针获得模块, 用于选取染色体上的 STS区域, 根据所述 STS区域的 DNA序列, 设计得到相应的捕获探针;

杂交模块, 用于将所述捕获探针与多样本的 DNA混合文库进行杂交, 以捕 获多样本中 STS区域的 DNA序列;

测序数据获得模块, 用于将所述捕获的相应捕获探针的多样本中 STS区域 的 DNA序列进行测序, 得到测序数据;

微缺失结果获得模块, 用于采用数理统计方法对所述测序数据进行分析, 根据所述分析结论, 获得每个样本中染色体 STS区域微缺失的结果。

17.根据权利要求 15所述的装置, 其特征在于: 所述微缺失结果获得模块包 括:

深度值均一化单元, 用于将样本的 STS区域的测序深度值进行均一化, 得 到均一化的深度值;

微缺失结果获得单元,用于根据得到的样本的 STS区域的均一化的深度值, 采用数理统计方法, 检测所述样本 STS区域的深度值异常值, 并获得所述样本 STS区域微缺失的结果。

18.根据权利要求 16所述的装置, 其特征在于: 所述深度值均一化单元具体 样本区域均一化的深度值。

19.根据权利要求 16所述的装置, 其特征在于: 所述微缺失结果获得单元包 括:

平均值方差获得单元, 用于根据得到的所有样本的同一区域的均一化的深 度值, 计算所述所有样本的同一区域的均一化深度值的平均值以及方差;

正态分布曲线获得单元, 用于根据所述所有样本的同一区域的均一化深度 值的平均值以及方差, 获得所述同一区域所有非离群样本的正态分布曲线; 概率值计算单元, 用于根据所述正态分布曲线, 计算每个样本在每个区域 在特定深度值时的概率值; 第一判断单元, 用于根据每个样本在相应区域在特定深度值时的概率值, 设置第一概率值阈值, 若所述样本所在区域在特定深度值时的概率值小于所述 概率值第一概率值阈值, 则获得所述样本区域有微缺失的结果 Rl。

20.根据权利要求 19所述的装置, 其特征在于: 所述微缺失结果获得单元还 包括: 证, 根据实验验证结果, 设置第二概率值阈值, 其中, 所述第二概率值阈值小 于第一概率值阈值;

第二判断单元, 用于若所述样本区域在特定深度值时的概率值小于所述第 二概率值阈值, 则获得所述样本区域有微缺失的结果 R2。

21.根据权利要求 16所述的装置, 其特征在于: 所述微缺失结果获得单元包 括:

比值 D/S获得单元, 用于根据得到的样本的 STS区域的均一化的深度值, 计算所述样本区域均一化的深度值与所有样本的深度值的中位数的比值 D/S; 比值 D/R获得单元, 用于根据得到的样本的 STS区域的均一化的深度值, 计算所述样本区域均一化的深度值与所有区域的深度值的中位数的比值 D/R;

第一、 二比值阈值获得单元, 用于将所述比值 D/S 通过 ID3算法训练出第 一比值阈值, 将所述比值 D/R通过 ID3算法训练出第二比值阈值;

第一判断单元, 用于若样本区域的比值 D/S 大于第一比值阈值, 则获得所 述样本区域没有微缺失的结果;

第二判断单元, 用于若样本区域的比值 D/S 小于第一比值阈值, 并且样本 区域的比值 D/R大于第二比值阈值, 则获得所述样本区域没有 缺失的结果; 第三判断单元, 用于若样本区域的比值 D/S 小于第一比值阈值, 并且样本 区域的比值 D/R小于第二比值阈值, 则获得所述样本区域有 缺失的结果。

22.根据权利要求 16所述的装置, 其特征在于: 所述微缺失结果获得单元包 括: 平均值方差获得单元, 用于根据得到的所有样本的同一区域的均一化的深 度值, 计算所述所有样本的同一区域的均一化深度值的平均值以及方差;

正态分布曲线获得单元, 用于根据所述所有样本的同一区域的均一化深度 值的平均值以及方差, 获得所述同一区域所有非离群样本的正态分布曲线; 概率值计算单元, 用于根据所述正态分布曲线, 计算每个样本在每个区域 在特定深度值时的概率值; 设置第三概率值阈值, 若所述样本区域在特定深度值时的概率值小于所述第三 概率值阈值, 则获得所述样本区域有微缺失的结果 R3;

比值 D/S获得单元,用于计算所述结果 R3中样本区域均一化的深度值与所 有样本的深度值的中位数的比值 D/S;

比值 D/R获得单元,用于计算所述结果 R3中样本区域均一化的深度值与所 有区域的深度值的中位数的比值 D/R;

第三、 四比值阈值获得单元, 用于将所述比值 D/S 通过 ID3算法训练出第 三比值阈值, 将所述比值 D/R通过 ID3算法训练出第四比值阈值;

第二判断单元, 用于若样本区域的比值 D/S 大于第三比值阈值, 则获得所 述样本区域没有微缺失的结果;

第三判断单元, 用于若样本区域的比值 D/S 小于第三比值阈值, 并且样本 区域的比值 D/R大于第四比值阈值, 则获得所述样本区域没有微缺失的结果; 第四判断单元, 用于若样本区域的比值 D/S 小于第三比值阈值, 并且样本 区域的比值 D/R小于第四比值阈值, 则获得所述样本区域有微缺失的结果。

23.根据权利要求 15所述的装置,其特征在于:所述捕获探针获得模块包括: 区域查找单元,用于在基因组数据库中查找染色体上的 STS区域的 DNA序 列;

序列挑选单元,用于在所述查找到的 STS区域的 DNA序列中挑选符合捕获 探针设计条件的序列; 捕获探针获得单元, 用于根据所述挑选到的符合捕获探针设计条件的序列, 设计并合成得到捕获探针。

24.根据权利要求 15所述的装置,其特征在于:所述装置还包括多样本 DNA 混合文库制备模块, 所述多样本 DNA混合文库制备模块包括:

单样本 DNA文库制备单元,用于制备多个带有不同接头的质量控制合格的 单样本的 DNA文库;

单样本文库混合单元,用于将所述多个单样本的 DNA文库按照预定比例混 合;

多样本 DNA混合文库获得单元, 用于检验所述混合的多样本的 DNA文库 的质量是否合格, 若是, 即为制备的多样本的 DNA混合文库。

25.根据权利要求 15所述的装置, 其特征在于: 所述装置还包括测序数据质 控模块, 所述测序数据质控模块包括:

合格序列获得单元,用于对所述多样本中 STS区域的 DNA序列的测序数据 中不合格的数据进行过滤, 得到合格的多样本的测序数据的序列;

测序深度统计单元, 用于通过短序列对比软件, 将所述合格的多样本的测 序数据与参考基因组序列进行对比, 并统计每个样本的测序深度的相关参数以 及不同样本之间相同的 STS区域的测序深度的相关参数;

合格样本获得单元, 用于根据所述统计得到的每个样本的测序深度的相关 参数, 过滤掉不合格的样本的测序数据, 得到合格的样本的测序数据;

合格区域获得单元, 用于根据所述统计得到的不同样本之间相同的 STS区 域的测序深度的相关参数, 过滤掉不合格 STS区域的测序数据, 得到合格 STS 区域的测序数据。

26.—种计算机可读介质, 其特征在于, 所述介质承载一系列指令以控制计 算机处理器执行如权利要求 1至 15中任一项所述的方法。

Description:
一种检测染色体 STS区域微缺失的方法及其装置

【技术领域】

本发明涉及基因工程技术领域, 特别是涉及一种基于染色体序列标签位点

STS区域微缺失检测的方法及其装置。

【背景技术】

缺失是染色体组中的染色体或 DNA分子发生部分丟失的现象,它是导致基 因突变的一个重要原因。

目前对染色体 STS 区域的微缺失检测主要是应用 PCR ( Polymerase Chain Reaction )技术。 PCR技术是通过模拟体内 DNA复制的方式, 在体外选择性地 将 DNA某个特殊区域扩增出来的技术。 当对少量位点检测时, PCR检测具有快 速、方便的特点;另夕卜,引物设计需要预先 知道 DNA某个特殊区域两端的序列, 因此要求这些染色体 STS区域的微缺失是预先已经报道的。

但是,在面对大量样本或未经报道的微缺失时 , PCR检测有很大的局限性; 另外, 当需要检测的 STS位点较多、 尤其是对整个染色体缺失进行检测时, 传 统的 PCR已经不能满足这种需求, 需要一种新的技术来进行研究。

【发明内容】

本发明主要解决的技术问题是提供一种基于染 色体序列标签位点 STS区域 缺失检测的方法及其装置, 能够在有限的成本上, 进行大量的染色体 STS区 域的微缺失的检测; 也能够检测染色体 STS区域未经报道的微缺失。

为解决上述技术问题, 本发明采用的一个技术方案是: 提供一种基于染色 体序列标签位点 STS区域微缺失检测的方法,包括:选取染色体 上的 STS区域, 根据所述 STS区域的 DNA序列,设计得到相应的捕获探针;将所述捕 获探针与 多样本的 DNA混合文库进行杂交, 以捕获多样本中 STS区域的 DNA序列; 将 所述捕获的相应捕获探针的多样本中 STS区域的 DNA序列进行测序,得到测序 数据; 采用数理统计方法对所述测序数据进行分析, 根据所述分析结论, 获得 每个样本中染色体 STS区域微缺失的结果。

其中, 所述采用数理统计方法对所述测序数据进行分 析, 根据所述分析结 论, 获得每个样本中染色体 STS区域微缺失的结果的步骤包括: 将样本的 STS 区域的测序深度值进行均一化, 得到均一化的深度值; 根据得到的样本的 STS 区域的均一化的深度值, 采用数理统计方法, 检测所述样本 STS区域的深度值 异常值, 并获得所述样本 STS区域微缺失的结果。

其中, 所述将样本的 STS区域的测序深度值进行均一化的步骤包括: 将所 均一化的深度值。

其中, 所述根据得到的样本的 STS区域的均一化的深度值, 采用数理统计 方法, 检测所述样本 STS区域的深度值异常值, 并获得所述样本 STS区域微缺 失的结果的步骤包括: 根据得到的所有样本的同一区域的均一化的深 度值, 计 算所述所有样本的同一区域的均一化深度值的 平均值以及方差; 根据所述所有 样本的同一区域的均一化深度值的平均值以及 方差, 获得所述同一区域所有非 离群样本的正态分布曲线; 根据所述正态分布曲线, 计算每个样本在每个区域 在特定深度值时的概率值; 根据每个样本在相应区域在特定深度值时的概 率值, 设置第一概率值阈值, 若所述样本所在区域在特定深度值时的概率值 小于所述 第一概率值阈值, 则获得所述样本区域有微缺失的结果 Rl。

其中, 所述根据每个样本在相应区域在特定深度值时 的概率值, 设置第一 概率值阈值, 若所述样本所在区域在特定深度值时的概率值 小于所述第一概率 本区域有微缺失的结果 R1进行实验验证, 根据实验验证结果, 设置第二概率值 阈值, 其中, 所述第二概率值阈值小于第一概率值阈值; 若所述样本区域在特 定深度值时的概率值小于所述第二概率值阈值 , 则获得所述样本区域有微缺失 的结果 R2。

其中, 所述根据得到的样本的 STS区域的均一化的深度值, 采用数理统计 方法, 检测所述样本 STS区域的深度值异常值, 并获得所述样本 STS区域微缺 失的结果的步骤包括: 根据得到的样本的 STS区域的均一化的深度值, 计算所 述样本区域均一化的深度值与所有样本的深度 值的中位数的比值 D/S;根据得到 的样本的 STS区域的均一化的深度值, 计算所述样本区域均一化的深度值与所 有区域的深度值的中位数的比值 D/R; 将所述比值 D/S 通过 ID3算法训练出第 一比值阈值, 将所述比值 D/R通过 ID3算法训练出第二比值阈值; 若样本区域 的比值 D/S 大于第一比值阈值, 则获得所述样本区域没有 缺失的结果; 若样 本区域的比值 D/S小于第一比值阈值, 并且样本区域的比值 D/R大于第二比值 阈值, 则获得所述样本区域没有 缺失的结果; 若样本区域的比值 D/S 小于第 一比值阈值, 并且样本区域的比值 D/R小于第二比值阈值, 则获得所述样本区 域有微缺失的结果。

其中, 所述根据得到的样本的 STS区域的均一化的深度值, 采用数理统计 方法, 检测所述样本 STS区域的深度值异常值, 并获得所述样本 STS区域微缺 失的结果的步骤包括: 根据得到的所有样本的同一区域的均一化的深 度值, 计 算所述所有样本的同一区域的均一化深度值的 平均值以及方差; 根据所述所有 样本的同一区域的均一化深度值的平均值以及 方差, 获得所述同一区域所有非 离群样本的正态分布曲线; 根据所述正态分布曲线, 计算每个样本在每个区域 在特定深度值时的概率值; 根据每个样本在每个区域在特定深度值时的概 率值, 设置第三概率值阈值, 若所述样本区域在特定深度值时的概率值小于 所述第三 概率值阈值, 则获得所述样本区域有微缺失的结果 R3 ; 计算所述结果 R3 中样 本区域均一化的深度值与所有样本的深度值的 中位数的比值 D/S;计算所述结果 R3中样本区域均一化的深度值与所有区域的深 值的中位数的比值 D/R; 将所 述比值 D/S 通过 ID3算法训练出第三比值阈值, 将所述比值 D/R通过 ID3算法 训练出第四比值阈值; 若样本区域的比值 D/S 大于第三比值阈值, 则获得所述 样本区域没有 缺失的结果; 若样本区域的比值 D/S 小于第三比值阈值, 并且 样本区域的比值 D/R大于第四比值阈值, 则获得所述样本区域没有微缺失的结 果; 若样本区域的比值 D/S小于第三比值阈值, 并且样本区域的比值 D/R小于 第四比值阈值, 则获得所述样本区域有微缺失的结果。

其中, 所述选取染色体上的 STS区域, 根据所述 STS区域的 DNA序列, 设计并合成相应的捕获探针的步骤包括:在基 因组数据库中查找染色体上的 STS 区域的 DNA序列; 在所述查找到的 STS区域的 DNA序列中挑选符合捕获探针 设计条件的序列; 根据所述挑选到的符合捕获探针设计条件的序 列, 设计并合 成得到捕获探针。

其中, 所述多样本的 DNA混合文库的制备的步骤包括: 制备多个带有不同 接头的质量控制合格的单样本的 DNA文库; 将所述多个单样本的 DNA文库按 照预定比例混合; 检验所述混合的多样本的 DNA文库的质量是否合格, 若是, 即为制备的多样本的 DNA混合文库。

其中, 所述单样本的 DNA文库的制备的步骤包括: 利用物理或化学的方法 将基因组 DNA打断成预定大小的 DNA片段, 回收所述打断的 DNA片段; 利 用酶对所述回收的 DNA片段进行末端修复, 形成补平的末端磷酸化的 DNA片 段,回收所述补平的末端磷酸化的 DNA片段;利用酶对所述回收的补平的 DNA 片段的 3,末端加上" A"碱基, 回收所述 3,末端加上" A"碱基的 DNA片段; 使所 述回收的 3,末端加上" A"碱基的 DNA 片段在酶的作用下与标签接头 Index Adapter连接, 并回收带有标签接头的 DNA片段; 以标签接头序列的引物做为 引物, 对所述带有标签接头的 DNA片段进行扩增, 回收所述扩增的产物; 检验 所述扩增的产物的质量控制是否合格, 若是, 即为制备的单样本的 DNA文库。

其中,所述将捕获的相应捕获探针的多样本中 STS区域的 DNA序列进行测 序,得到测序数据的步骤之后还包括:对所述 对多样本中 STS区域的 DNA序列 的测序数据进行质量控制。

其中,所述对多样本中 STS区域的 DNA序列的测序数据进行质量控制的步 骤包括:对所述多样本中 STS区域的 DNA序列的测序数据中不合格的数据进行 过滤, 得到合格的多样本的测序数据; 通过短序列对比软件, 将所述合格的多 样本的测序数据与参考基因组序列进行对比, 并统计每个样本的测序深度的相 关参数以及不同样本之间相同的 STS区域的测序深度的相关参数; 根据所述统 计得到的每个样本的测序深度的相关参数, 过滤掉不合格的样本的测序数据, 得到合格的样本的测序数据; 根据所述统计得到的不同样本之间相同的 STS区 域的测序深度的相关参数, 过滤掉不合格 STS区域的测序数据, 得到合格 STS 区域的测序数据。

其中,所述对多样本中 STS区域的 DNA序列的测序数据中不合格的数据进 行过滤, 得到合格的多样本的测序数据的步骤包括: 通过测序数据中低质量值 碱基的比例进行测序质量过滤, 若低质量值碱基个数超过整条序列碱基个数的 预定比例, 则判断为是不合格的数据, 将所述不合格的测序数据过滤掉, 获得 初步合格的第一测序数据集合; 若所述初步合格的第一测序数据集合中测序结 果不确定的碱基个数超过整条序列碱基个数的 10%, 则判断为是不合格的数据, 将所述不合格的测序数据过滤掉, 获得初步合格的第二测序数据集合; 将所述 初步合格的第二测序数据集合中所有测序数据 与测序接头序列库进行比对, 若 所述初步合格的第二测序数据集合中存在测序 接头序列, 则判断为是不合格的 数据, 将所述不合格的测序数据过滤掉, 获得初步合格的第三测序数据集合; 将所述初步合格的第三测序数据集合中所有测 序数据与试验中引入的所有外源 序列比对, 若所述初步合格的第三测序数据集合中存在外 源序列, 则判断为是 不合格的数据, 将所述不合格的测序数据过滤掉, 获得合格的多样本的测序数 据的序列。

其中, 所述根据统计得到的每个样本的测序深度的相 关参数, 过滤掉不合 格的样本的测序数据, 得到合格的样本的测序数据的步骤包括: 将所有样本的 测序深度值按照从小到大的顺序进行排序, 利用四分位函数确定所述排序后的 所有样本的测序深度值的下四分位数 Q1、上四分位数 Q3以及四分位数间距 IQR; 将所有样本的测序深度值在 Ql减去 1.5倍 IQR和 Q3加上 1.5倍 IQR范围之外 的不合格的样本的测序数据过滤掉, 得到合格的样本的测序数据。

其中, 所述根据统计得到的不同样本之间相同的 STS区域的测序深度的相 关参数, 过滤掉不合格 STS区域的测序数据, 得到合格 STS区域的测序数据的 步骤包括: 将不同样本之间相同的 STS区域的测序深度值按照从小到大的顺序 进行排序, 利用四分位函数确定所述排序后的不同样本之 间相同的 STS区域的 测序深度值的中位数、 上四分位数 Q3以及四分位数间距 IQR; 将不同样本之间 相同的 STS区域的测序深度值中位数为 0或者中位数大于 Q3加上 1.5倍 IQR 的不合格的 STS区域的测序数据过滤掉, 得到合格的 STS区域的测序数据。

为解决上述技术问题, 本发明采用的另一个技术方案是: 提供一种基于染 色体序列标签位点 STS区域微缺失检测的装置, 包括: 捕获探针获得模块, 用 于选取染色体上的 STS区域, 根据所述 STS区域的 DNA序列, 设计得到相应 的捕获探针; 杂交模块, 用于将所述捕获探针与多样本的 DNA混合文库进行杂 交, 以捕获多样本中 STS区域的 DNA序列; 测序数据获得模块, 用于将所述捕 获的相应捕获探针的多样本中 STS区域的 DNA序列进行测序, 得到测序数据; 微缺失结果获得模块, 用于采用数理统计方法对所述测序数据进行分 析, 根据 所述分析结论, 获得每个样本中染色体 STS区域微缺失的结果。

其中, 所述微缺失结果获得模块包括: 深度值均一化单元, 用于将样本的 STS 区域的测序深度值进行均一化, 得到均一化的深度值; 微缺失结果获得单 元, 用于根据得到的样本的 STS区域的均一化的深度值, 采用数理统计方法, 检测所述样本 STS区域的深度值异常值, 并获得所述样本 STS区域微缺失的结 果。

其中, 所述深度值均一化单元具体用于将所有样本中 相同区域的深度值除 以每个样本深度值的平均值, 得到所述样本区域均一化的深度值。 其中, 所述微缺失结果获得单元包括: 平均值方差获得单元, 用于根据得 到的所有样本的同一区域的均一化的深度值, 计算所述所有样本的同一区域的 均一化深度值的平均值以及方差; 正态分布曲线获得单元, 用于根据所述所有 样本的同一区域的均一化深度值的平均值以及 方差, 获得所述同一区域所有非 离群样本的正态分布曲线; 概率值计算单元, 用于根据所述正态分布曲线, 计 算每个样本在每个区域在特定深度值时的概率 值; 第一判断单元, 用于根据每 个样本在相应区域在特定深度值时的概率值, 设置第一概率值阈值, 若所述样 本所在区域在特定深度值时的概率值小于所述 概率值第一概率值阈值, 则获得 所述样本区域有微缺失的结果 Rl。

其中, 所述微缺失结果获得单元还包括: 概率值阈值确定单元, 用于对所 述样本区域有微缺失的结果 R1进行实验验证, 根据实验验证结果, 设置第二概 率值阈值, 其中, 所述第二概率值阈值小于第一概率值阈值; 第二判断单元, 用于若所述样本区域在特定深度值时的概率值 小于所述第二概率值阈值, 则获 得所述样本区域有微缺失的结果 R2。

其中, 所述微缺失结果获得单元包括: 比值 D/S获得单元, 用于根据得到 的样本的 STS区域的均一化的深度值, 计算所述样本区域均一化的深度值与所 有样本的深度值的中位数的比值 D/S; 比值 D/R获得单元, 用于根据得到的样 本的 STS区域的均一化的深度值, 计算所述样本区域均一化的深度值与所有区 域的深度值的中位数的比值 D/R; 第一、二比值阈值获得单元, 用于将所述比值 D/S 通过 ID3算法训练出第一比值阈值, 将所述比值 D/R通过 ID3算法训练出 第二比值阈值;第一判断单元,用于若样本区 域的比值 D/S大于第一比值阈值, 则获得所述样本区域没有微缺失的结果; 第二判断单元, 用于若样本区域的比 值 D/S小于第一比值阈值, 并且样本区域的比值 D/R大于第二比值阈值, 则获 得所述样本区域没有 缺失的结果; 第三判断单元, 用于若样本区域的比值 D/S 小于第一比值阈值, 并且样本区域的比值 D/R小于第二比值阈值, 则获得所述 样本区域有微缺失的结果。 其中, 所述微缺失结果获得单元包括: 平均值方差获得单元, 用于根据得 到的所有样本的同一区域的均一化的深度值, 计算所述所有样本的同一区域的 均一化深度值的平均值以及方差; 正态分布曲线获得单元, 用于根据所述所有 样本的同一区域的均一化深度值的平均值以及 方差, 获得所述同一区域所有非 离群样本的正态分布曲线; 概率值计算单元, 用于根据所述正态分布曲线, 计 算每个样本在每个区域在特定深度值时的概率 值; 第一判断单元, 用于根据每 个样本在每个区域在特定深度值时的概率值, 设置第三概率值阈值, 若所述样 本区域在特定深度值时的概率值小于所述第三 概率值阈值, 则获得所述样本区 域有 缺失的结果 R3; 比值 D/S获得单元, 用于计算所述结果 R3中样本区域 均一化的深度值与所有样本的深度值的中位数 的比值 D/S;比值 D/R获得单元, 用于计算所述结果 R3中样本区域均一化的深度值与所有区域的深 值的中位数 的比值 D/R; 第三、 四比值阈值获得单元, 用于将所述比值 D/S 通过 ID3算法 训练出第三比值阈值, 将所述比值 D/R通过 ID3算法训练出第四比值阈值; 第 二判断单元, 用于若样本区域的比值 D/S 大于第三比值阈值, 则获得所述样本 区域没有微缺失的结果; 第三判断单元, 用于若样本区域的比值 D/S 小于第三 比值阈值, 并且样本区域的比值 D/R大于第四比值阈值, 则获得所述样本区域 没有 缺失的结果; 第四判断单元, 用于若样本区域的比值 D/S 小于第三比值 阈值, 并且样本区域的比值 D/R小于第四比值阈值, 则获得所述样本区域有 缺失的结果。

其中, 所述捕获探针获得模块包括: 区域查找单元, 用于在基因组数据库 中查找染色体上的 STS区域的 DNA序列;序列挑选单元,用于在所述查找到的 用于根据所述挑选到的符合捕获探针设计条件 的序列, 设计并合成得到捕获探 针。

其中, 所述装置还包括多样本 DNA混合文库制备模块, 所述多样本 DNA 混合文库制备模块包括: 单样本 DNA文库制备单元, 用于制备多个带有不同接 头的质量控制合格的单样本的 DNA文库; 单样本文库混合单元, 用于将所述多 个单样本的 DNA文库按照预定比例混合; 多样本 DNA混合文库获得单元, 用 于检验所述混合的多样本的 DNA文库的质量是否合格, 若是, 即为制备的多样 本的 DNA混合文库。

其中, 所述装置还包括测序数据质控模块, 所述测序数据质控模块包括: 合格序列获得单元,用于对所述多样本中 STS区域的 DNA序列的测序数据中不 合格的数据进行过滤, 得到合格的多样本的测序数据; 测序深度统计单元, 用 于通过短序列对比软件, 将所述合格的多样本的测序数据与参考基因组 序列进 行对比, 并统计每个样本的测序深度的相关参数以及不 同样本之间相同的 STS 区域的测序深度的相关参数; 合格样本获得单元, 用于根据所述统计得到的每 个样本的测序深度的相关参数, 过滤掉不合格的样本的测序数据, 得到合格的 样本的测序数据; 合格区域获得单元, 用于根据所述统计得到的不同样本之间 相同的 STS 区域的测序深度的相关参数, 过滤掉不合格 STS 区域的测序数据, 得到合格 STS区域的测序数据。

为解决上述技术问题, 本发明采用的又一个技术方案是: 提供一种计算机 可读介质, 所述介质承载一系列指令以控制计算机处理器 执行如上所述的方法。

本发明的有益效果是: 区别于现有技术的情况, 本发明的基于染色体序列 标签位点 STS区域微缺失检测的方法及其装置, 根据 STS区域的 DNA序列, 设计获得捕获探针,探针涵盖了整个染色体上 STS区域,与多样本的 DNA混合 文库进行杂交后, 捕获到的多样本中 STS区域的 DNA序列, 能够大量、 高效、 本发明的数理统计信息分析流程科学、 稳定, 灵敏度高、 假阳性低, 可以有效 的针对微缺失进行分析。

【附图说明】

图 1是本发明基于染色体序列标签位点 STS区域微缺失检测的方法一实施 例的流程图;

图 2是本发明基于染色体序列标签位点 STS区域微缺失检测的方法另一实 施例的流程图;

图 3是本发明基于染色体序列标签位点 STS区域微缺失检测的方法又一实 施例的流程图;

图 4是本发明基于染色体序列标签位点 STS区域微缺失检测的方法又一实 施例的流程图;

图 5是本发明基于染色体序列标签位点 STS区域微缺失检测的方法又一实 施例的流程图;

图 6是本发明基于染色体序列标签位点 STS区域微缺失检测的方法又一实 施例的流程图;

图 7是本发明基于染色体序列标签位点 STS区域微缺失检测的方法又一实 施例的流程图;

图 8是本发明基于染色体序列标签位点 STS区域微缺失检测的方法又一实 施例中过滤掉深度值离群的样本的示意图;

图 9是本发明基于染色体序列标签位点 STS区域微缺失检测的方法又一实 施例中深度值正常的样本的示意图;

图 10是本发明基于染色体序列标签位点 STS区域微缺失检测的方法又一实 施例的流程图;

图 11是本发明基于染色体序列标签位点 STS区域微缺失检测的方法又一实 施例中过滤掉深度值离群的区域的示意图;

图 12是本发明基于染色体序列标签位点 STS区域微缺失检测的方法又一实 施例的流程图;

图 13是本发明基于染色体序列标签位点 STS区域微缺失检测的方法又一实 施例的流程图;

图 14是本发明基于染色体序列标签位点 STS区域微缺失检测的方法又一实 施例的流程图;

图 15是本发明基于染色体序列标签位点 STS区域微缺失检测的方法又一实 施例的流程图;

图 16是本发明基于染色体序列标签位点 STS区域微缺失检测的方法又一实 施例中举例说明使用 JD3算法所构造的决策树的示意图;

图 17是本发明基于染色体序列标签位点 STS区域微缺失检测的方法又一实 施例中决策树分析法的部分流程图;

图 18是本发明基于染色体序列标签位点 STS区域微缺失检测的方法又一实 施例中决策树分析法的流程图;

图 19是本发明基于染色体序列标签位点 STS区域微缺失检测的方法又一实 施例的流程图;

图 20是本发明基于染色体序列标签位点 STS区域微缺失检测的方法又一实 施例中样品测序深度中位数的柱状统计图以及 箱线图;

图 21是本发明基于染色体序列标签位点 STS区域微缺失检测的方法又一实 施例中区域测序深度中位数的柱状统计图以及 箱线图;

图 22是本发明基于染色体序列标签位点 STS区域微缺失检测的方法又一实 施例中获得区域深度为某个特定值的概率值的 示意图;

图 23是本发明基于染色体序列标签位点 STS区域微缺失检测的方法又一实 施例中概率值阈值以及概率值阈值的期望值与 观察值的关系示意图;

图 24是本发明基于染色体序列标签位点 STS区域微缺失检测的方法又一实 施例中真、 假阳性比例的示意图;

图 25是本发明基于染色体序列标签位点 STS区域微缺失检测的装置一实施 例的结构示意图;

图 26是本发明基于染色体序列标签位点 STS区域微缺失检测的装置又一实 施例的结构示意图;

图 27是本发明基于染色体序列标签位点 STS区域微缺失检测的装置又一实 施例的结构示意图;

图 28是本发明基于染色体序列标签位点 STS区域微缺失检测的装置又一实 施例的结构示意图;

图 29是本发明基于染色体序列标签位点 STS区域微缺失检测的装置又一实 施例的结构示意图。

【具体实施方式】

下面结合附图和实施例对本发明进行详细说明 。

图 1是本发明基于染色体序列标签位点 STS区域微缺失检测的方法一实施 例的流程图, 如图 1所示, 所述方法包括:

步骤 101 : 选取染色体上的 STS区域, 根据所述 STS区域的 DNA序列, 设 计得到相应的捕获探针。

STS ( sequence-tagged site )序列标签位点, 是基因组上定位明确、 作为界 标并能够通过 PCR扩增、 被唯一操作的短的、 单拷贝的 DNA序列, 用于产生 作图位点, 即测定一系列 STS的次序即可作出基因组区域的图谱。 探针是一小 段单链 DNA或者 RNA片段(大约是 20到 500bp ) , 用于检测与其互补的核酸 序列。

步骤 102: 将所述捕获探针与多样本的 DNA混合文库进行杂交, 以捕获多 样本中 STS区域的 DNA序列。

DNA文库是指某一特定来源 DNA通过细胞 - DNA克隆技术构建呈含有所 用 DNA片段的重组 DNA分子,并转化至细菌内,构成 DNA文库。此处的 DNA 混合文库是指所有样本混合在一起的所用 DNA片段。

步骤 103: 将所述捕获的相应捕获探针的多样本中 STS区域的 DNA序列进 行测序, 得到测序数据。

步骤 104:采用数理统计方法对所述测序数据进行分 ,根据所述分析结论, 获得每个样本中染色体 STS区域微缺失的结果。 数理统计是伴随着概率论的发展而发展起来的 一个数学分支, 研究如何有 效的由集、 整理和分析受随机因素影响的数据, 并对所考虑的问题作出推断或 预测, 为采取某种决策和行动提供依据或建议。

在一实施例中,如图 2所示,所述选取染色体上的 STS区域,根据所述 STS 区域的 DNA序列, 设计并合成相应的捕获探针的步骤包括:

步骤 201 : 在基因组数据库中查找染色体上的 STS区域的 DNA序列。

找出 Y染色体上 STS序列在 UCSC数据库中,在人类基因组参考序列 Hgl9 ( http://genome.ucsc.edu/ )的位置坐标, 根据位置坐标即可找到 Y染色体上 STS 区域的 DNA序列。

步骤 202: 在所述查找到的 STS区域的 DNA序列中挑选符合捕获探针设计 条件的序列。

序列上的重复性及 GC含量会影响到芯片的捕获效率, 甚至发生捕获错误, 所以挑选符合捕获探针设计条件的序列很重要 。

步骤 203: 根据所述挑选到的符合捕获探针设计条件的序 列, 设计并合成得 到捕获探针。

为了捕获 DNA片段, 探针的长度一般为 60-150bp, GC含量在 40%-70%之 间。 在对同一段上的 DNA序列进行探针设计时, 需要多条探针才能覆盖整段 DNA序列, 而且探针与探针之间存在重叠序列(overlap ), 其中, 重叠序列的长 度一般为 20bp。

在具体实施例中,在基因组数据库中查找染色 体上的 STS区域的 DNA序列 的位置坐标, 将此坐标提交给提供 DNA捕获服务的公司, 由这些公司完成捕获 探针的设计与合成。

其中, 如图 3所示, 多样本的 DNA混合文库的制备的步骤包括:

步骤 301 : 制备多个带有不同接头的质量控制合格的单样 本的 DNA文库。 每个样本带有一个不同的标签接头, 为了在测序中区别来自不同样本的文 库, 每个样本文库的 DNA末端都含有不同的 6bp或 8bp的 Index碱基序列。 步骤 302: 将所述多个单样本的 DNA文库按照预定比例混合。

每个样本文库 DNA混合量可根据需要等量或按照一定比例混合 。

步骤 303: 检验所述混合的多样本的 DNA文库的质量是否合格, 若是, 即 为制备的多样本的 DNA混合文库。

对混合的多样本的 DNA文库进行定量,检测是否引入外源杂质等质 量控制 指标。

其中, 如图 4所示, 单样本的 DNA文库的制备的步骤包括:

步骤 401 : 利用物理或化学的方法将基因组 DNA打断成预定大小的 DNA 片段, 回收所述打断的 DNA片段。

一般选择打断的 DNA片段大小为 200~300bp,探针长度一般为 80bp左右, 片段长度在 200~300bp会有较高的捕获效率; 另外捕获之后采用 PE测序, 测通 长度也在 200~300bp。

步骤 402: 利用酶对所述回收的 DNA片段进行末端修复, 形成补平的末端 磷酸化的 DNA片段, 回收所述补平的末端磷酸化的 DNA片段;

步骤 403: 利用酶对所述回收的补平的 DNA片段的 3,末端加上" A"碱基, 回收所述 3,末端加上" A"碱基的 DNA片段;

步骤 404: 使所述回收的 3,末端加上" A"碱基的 DNA片段在酶的作用下与 标签接头 Index Adapter连接, 并回收带有标签接头的 DNA片段;

步骤 405: 以标签接头序列的引物做为引物, 对所述带有标签接头的 DNA 片段进行扩增, 回收所述扩增的产物;

步骤 406: 检验所述扩增的产物的质量控制是否合格, 若是, 即为制备的单 样本的 DNA文库。 对单样本的 DNA文库进行定量, 检测是否引入外源杂质等 质量控制指标。

其中, 将捕获的相应捕获探针的多样本中 STS区域的 DNA序列进行测序, 得到测序数据的步骤之后还包括:对所述对多 样本中 STS区域的 DNA序列的测 序数据进行质量控制。如图 5所示,对多样本中 STS区域的 DNA序列的测序数 据进行质量控制的步骤包括:

步骤 501 : 对所述多样本中 STS区域的 DNA序列的测序数据中不合格的数 据进行过滤, 得到合格的多样本的测序数据; 其中高通量测序技术可以为 Illumina Hiseq 2000测序技术, 当然也可以采用现有的其他高通量测序技术。

步骤 502: 通过短序列对比软件, 将所述合格的多样本的测序数据与参考基 因组序列进行对比, 并统计每个样本的测序深度的相关参数以及不 同样本之间 相同的 STS区域的测序深度的相关参数;

步骤 503: 根据所述统计得到的每个样本的测序深度的相 关参数, 过滤掉不 合格的样本的测序数据, 得到合格的样本的测序数据;

步骤 504: 根据所述统计得到的不同样本之间相同的 STS 区域的测序深度 的相关参数, 过滤掉不合格 STS区域的测序数据, 得到合格 STS区域的测序数 据。

其中, 如图 6所示, 在步骤 501中, 对多样本中 STS区域的 DNA序列的测 序数据中不合格的数据进行过滤, 得到合格的多样本的测序数据的步骤包括: 步骤 601 : 通过测序数据中低质量值碱基的比例进行测序 质量过滤, 若低质 量值碱基个数超过整条序列碱基个数的预定比 例, 则判断为是不合格的数据, 将所述不合格的测序数据过滤掉, 获得初步合格的第一测序数据集合。 不同的 测序设备所用的质量值计算方法不同, 低质量值序列的标准可咨询测序设备提 供公司或参考领域内的一般标准。 在本实施例中所用的 Illumina 公司的 HiSeq2000测序仪所用的质量值的计算公式为 Q = A - 64, 其中 Q是某碱基的测 序质量值, A是 HiSeq2000测序仪输出的 FQ文件中该碱基对应质量字符的 ASCII 码。 质量值低于 5 的碱基在此实施例中被定义为低质量值碱基, 若低质量值碱 基个数超过整条序列碱基个数的 50%, 则判断为是不合格的数据, 将所述不合 格的测序数据过滤掉, 获得初步合格的第一测序数据集合。

步骤 602:若所述初步合格的第一测序数据集合中测 结果不确定的碱基个 数超过整条序列碱基个数的 10%, 则判断为是不合格的数据, 将所述不合格的 测序数据过滤掉 , 获得初步合格的第二测序数据集合;

步骤 603:将所述初步合格的第二测序数据集合中所 测序数据与测序接头 序列库进行比对, 若所述初步合格的第二测序数据集合中存在测 序接头序列, 则判断为是不合格的数据, 将所述不合格的测序数据过滤掉, 获得初步合格的 第三测序数据集合;

步骤 604:将所述初步合格的第三测序数据集合中所 测序数据与试验中引 入的所有外源序列比对, 若所述初步合格的第三测序数据集合中存在外 源序列, 则判断为是不合格的数据, 将所述不合格的测序数据过滤掉, 获得合格的多样 本的测序数据。 在本发明实施例中, 试验中引入的外源序列为人参考基因组序 列。

在实际应用中, 高通量测序技术可以是 Illumina Hiseq 2000测序技术, 也可 以是现有的其它高通量测序技术。 不同的测序仪器或条件可有不同的不合格序 列的标准, 如 Illumina Hiseq 2000进行测序时可用的某个标准: 测序质量低于某 一阀值的碱基个数超过整条序列碱基个数的 50%则认为是不合格序列, 其中, 低质量阀值由具体测序技术及测序环境而定; 序列中测序结果不确定的碱基(如 Illumina Hiseq 2000测序结果中的 N )个数超过整条序列碱基个数的 10%则认为 是不合格序列; 除样本接头序列外, 与其它实验引入的外源序列比对, 如各种 接头序列, 若序列中存在外源序列则认为是不合格序列。

其中, 如图 7所示, 根据统计得到的每个样本的测序深度的相关参 数, 过 滤掉不合格的样本的测序数据, 得到合格的样本的测序数据的步骤包括:

步骤 701 : 将所有样本的测序深度值按照从小到大的顺序 进行排序, 利用四 数 Q3以及四分位数间 巨 IQR。

四分位数( Quartile ), 即在统计学中, 把所有数值由小到大排列并分成四等 份, 处于三个分割点位置的得分就是四分位数。 第一四分位数 (Q1), 又称 "较 小四分位数", 即下四分位数, 等于该样本中所有数值由小到大排列后第 25%的 数字。 第二四分位数(Q2), 又称 "中位数", 等于该样本中所有数值由小到大排 列后第 50%的数字。 第三四分位数 (Q3), 又称 "较大四分位数", 即上四分位 数, 等于该样本中所有数值由小到大排列后第 75%的数字。 第三四分位数与第 一四分位数的差距又称四分位距(InterQuartile Range, IQR )。 不论 Ql , Q2, Q3 的变异量数数值为何, 均视为一个分界点, 以此将总数分成四个相等部份, 可 以通过 Ql , Q3 比较, 分析其数据变量的趋势。 四分位数在统计学中的箱线图 绘制方面应用也^艮广泛。 所谓箱线图就是由一组数据 5 个特征绘制的一个箱子 和两条线段的图形, 这种直观的箱线图不仅能反映出一组数据的分 布特征, 而 且还可以进行多组数据的分析比较。这五个特 征值, 即数据的最大值、最小值、 中位数和两个四分位数。

步骤 702: 将所有样本的测序深度值在 Q1减去 1.5倍 IQR和 Q3加上 1.5 倍 IQR范围之外的不合格的样本的测序数据过滤掉 , 得到合格的样本的测序数 据。

在本发明一实施例中, 如图 8、 9所示, 横坐标为区域深度分布, 纵坐标为 相同深度区域频数, 图 8是将深度值离群的样本过滤掉, 留下深度值正常的样 本, 如图 9所示, 为深度值正常的样本的示意图。

其中, 如图 10所示, 根据统计得到的不同样本之间相同的 STS区域的测序 深度的相关参数, 过滤掉不合格 STS区域的测序数据, 得到合格 STS区域的测 序数据的步骤包括:

步骤 1001 : 将不同样本之间相同的 STS区域的测序深度值按照从小到大的 顺序进行排序, 利用四分位函数确定所述排序后的不同样本之 间相同的 STS区 域的测序深度值的中位数、 上四分位数 Q3以及四分位数间距 IQR;

步骤 1002: 将不同样本之间相同的 STS区域的测序深度值中位数为 0或者 中位数大于 Q3加上 1.5倍 IQR的不合格的 STS区域的测序数据过滤掉,得到合 格的 STS区域的测序数据。

在本发明一实施例中, 如图 11所示, 横坐标为不同样品的相同区域的深度 分布, 纵坐标为相同深度区域频数, 图 11是将深度值离群的区域过滤掉后的示 意图。

其中, 如图 12所示, 采用数理统计方法对所述测序数据进行分析, 根据所 述分析结论, 获得每个样本中染色体 STS区域微缺失的结果的步骤包括:

步骤 1201 : 将样本的 STS区域的测序深度值进行均一化, 得到均一化的深 度值; 其中, 将样本的 STS区域的测序深度值进行均一化的步骤包括: 将所有 一化的深度值。

步骤 1202: 根据得到的样本的 STS区域的均一化的深度值, 采用数理统计 方法, 检测所述样本 STS区域的深度值异常值, 并获得所述样本 STS区域微缺 失的结果。

在一优选实施例中, 如图 13所示, 步骤 1202的具体步骤包括:

步骤 1301 : 根据得到的所有样本的同一区域的均一化的深 度值, 计算所述 所有样本的同一区域的均一化深度值的平均值 以及方差;

步骤 1302: 根据所述所有样本的同一区域的均一化深度值 的平均值以及方 差, 获得所述同一区域所有非离群样本的正态分布 曲线;

步骤 1303: 根据所述正态分布曲线, 计算每个样本在每个区域在特定深度 值时的概率值;

步骤 1304: 根据每个样本在相应区域在特定深度值时的概 率值, 设置第一 概率值阈值, 若所述样本所在区域在特定深度值时的概率值 小于所述概率值第 一概率值阈值, 则获得所述样本区域有微缺失的结果 Rl。

在另一优选实施例中, 如图 14所示, 在步骤 1304之后还包括:

步骤 1401 :对所述样本区域有微缺失的结果 R1进行实验验证,根据实验验 证结果, 设置第二概率值阈值, 其中, 所述第二概率值阈值小于第一概率值阈 值;

步骤 1402: 若所述样本区域在特定深度值时的概率值小于 所述第二概率值 阈值, 则获得所述样本区域有微缺失的结果 R2。

在实际应用中, 在大部分样本都无微缺失的情况下, 对某个区域而言, 微 缺失样本的深度值应该为无没有微缺失样本的 深度得到的正态分布的异常值, 采取适当的数理统计方法, 将每个区域的深度的异常值检出, 判读深度为异常 值的区域为微缺失区域。

判断区域的深度值是否为异常值的方法为: 对每个深度值离群过滤之后的 区域, 取深度离群深度值离群过滤之后的样本的数据 , 根据其平均值和方差, 得到该区域所有非离群样本数据的正态分布曲 线。 根据该曲线, 得到该区域深 度为某个特定值的概率值 (p.value ) , 对这些概率值设置一个合适的阈值 ( p.value-cutoff ), 对概率值小于该阈值的深度的样本, 判断该区域有微缺失。

对于概率值阈值的确定, 可采用以下方法: 通过以上方法算出每个样本每 个区域深度在所得到的正态分布中的概率值, 采取比较宽松的阈值, 先判断更 多的样本区域有微缺失, 再对这些样本区域进行实验验证, 验证其是否为微缺 失。 实验验证的方法可以为设计合适的引物, 对该样本区域的 DNA进行 PCR 反应,从 PCR产物情况判断其是否有正常的 PCR扩增产物, 以判断其是否有微 缺失。有这些样本区域是否是微缺失的信息之 后,就可选择合适的概率值阈值, 使之具有最好的假阳性假阴性指标。

在又一优选实施例中, 如图 15所示, 根据得到的样本的 STS区域的均一化 的深度值, 采用数理统计方法, 检测所述样本 STS区域的深度值异常值, 并获 得所述样本 STS区域微缺失的结果的步骤包括:

步骤 1501 : 根据得到的样本的 STS区域的均一化的深度值, 计算所述样本 区域均一化的深度值与所有样本的深度值的中 位数的比值 D/S;

步骤 1502: 根据得到的样本的 STS区域的均一化的深度值, 计算所述样本 区域均一化的深度值与所有区域的深度值的中 位数的比值 D/R;

步骤 1503: 将所述比值 D/S 通过 ID3算法训练出第一比值阈值, 将所述比 值 D/R通过 ID3算法训练出第二比值阈值; 步骤 1504: 若样本区域的比值 D/S大于第一比值阈值, 则获得所述样本区 域没有微缺失的结果;

步骤 1505: 若样本区域的比值 D/S小于第一比值阈值, 并且样本区域的比 值 D/R大于第二比值阈值, 则获得所述样本区域没有微缺失的结果;

步骤 1506: 若样本区域的比值 D/S小于第一比值阈值, 并且样本区域的比 值 D/R小于第二比值阈值, 则获得所述样本区域有微缺失的结果。

在实际应用中, 当有多个样本和区域需检测, 且敫缺失的样本区域所占的 比例较小时, 微缺失区域的深度和所有样本深度的中位数的 比例一般 ^艮小, 且 微缺失区域的深度和所有区域深度的中位数的 比例一般也 4艮小, 因此采用适当 的参数, 可用决策树的方法进行深度异常值的检验。

决策树检验的具体步骤如下: 算出所要检验的样本区域的深度与所有样本 的深度的中位数的比例, 如该比例大于一定的阈值, 则可判断为无微缺失, 但 如该比例小于该阈值, 则要进一步判断: 算出所要检验的样本区域的深度与所 有区域的深度的中位数的比例, 如该比例大于一定的阈值, 则可判断为无微缺 失, 但如该比例小于该阈值, 则判断为有微缺失。

决策树检验中阈值的确定是通过决策树的迭代 二叉树三代(ID3 )算法进行 计算的 ( Mitchell, Tom M. Machine Learning. McGraw-Hill, 1997); ID3算法的核 心是: 在决策树各级结点上选择属性时, 用信息增益(information gain )作为属 性的选择标准, 以使得在每一个非叶结点进行测试时, 能获得关于被测试记录 最大的类别信息。

决策树 ID3 算法的基本思路是: 第一步, 选取一个属性作为决策树的根节 点, 然后就这个属性的所有取值创建树的分支; 第二步, 用这棵树来对训练数 据进行分类, 如果一个叶节点的所有实例属于同一类, 则以该类标记此节点, 如果所有的叶节点都有类标记, 则算法终止; 第三步, 若还有叶节点没有标记, 则选取一个从该节点到根路径中没有出现过的 属性标记该结点, 然后就这个属 性所有的取值继续创建树的分支; 重复算法步骤第二步。

在第一步选择不同的属性时会生成不同的决策 树, 因此, 选择合适的属性 将会生成一棵筒单的决策树。 在 ID3 算法中, 通常采用一种基于信息的启发式 的方法来决定如何选取属性。 启发式方法选取具有最高信息量的属性, 也就是 生成最少分支决策树的属性。 在此发明中有两个属性需要选择, 样本区域深度 与样本区域深度中位数的比值 Tl ( D/S ), 不同样品的相同区域深度与不同样品 相同区域深度的中位数的比值 T2 ( D/R )。

属性最高信息量增益以信息增益作为度量标准 ; 信息增益计算方法如下: 设 D为用类别对训练元组进行的划分, 则 D的熵( entropy )表示为: 其中 pi表示第 i个类别在整个训练元组中出现的概率, 可以用属于此类别元素 的数量除以训练元组元素总数量进行估计。 熵的实际意义是表示 D中元组的类 标号所需要的平均信息量。 现在我们假设将训练元组 D按属性 A进行划分,则 A对 D划分的期望信息 为: tnfo A (D) = ^ \ mfo { D .) 而信息增益即为两者的差值: gain{A) = info(D)― info A (D)

ID3算法就是在每次需要分裂时,计算每个属 性的增益率,然后选择增益率最大 的属性进行分裂。

下面我们用某社区中不真实账号检测的例子说 明如何使用 ID3算法构造决 策树。 为了简单起见, 我们假设训练集合包含 10个元素, 如表 1 :

21

替换页 (细则第 26条) 1 m no yes

m s no yes s s yes no 表 1某社区中不真实账号检测 其中 s、 m和 1分别表示小、 中和大。 设 F、 H和 R表示日志密度、 好 友密度、 是否使用真实头像和账号是否真实, 下面计算各属性的信息增益。 injo(D) - -Q hg 2 Q,l― 0,3^^0,3 = 0,7 * 0,51 + 0,3 * 1 ,74 = 0.879

gain(L) = 0 79― 0.003 = 0.276 因此日志密度的信息增益是 0.276。用同样方法得到 H和 F的信息增益分别 为 0.033和 0.553。 因为 F具有最大的信息增益, 所以第一次分裂选择 F为分裂 属性, 分裂后的结果如图 16表示。 而为了解决与 Tl、 Τ2相类似的具有连续性属性的数据, 先对数据进行离散 化, 简单的做法是把属性值分为 Ai小于等于 Ν和 Ai大于 Ν两段。 对于任何的 一个属性, 其所有的取值在一个数据集中是有限的。 假设该属性取值为 (vl、 v2、 ...vn ),则在这个集合中,一共存在 n-1个分段值,然后进一步构建决策树。

其中离散化具体的方法是:

1 )寻找该连续型属性的最小值 MIN, 寻找该连续型属性的最大值 MAX; 2 ) 设置区间 (MIN , MAX ) 中的 N 个等分断点 Ai, 它们分别是 Ai=MIN+((MAX-MIN)/N)*i , 其中 i=l、 2、 3 ;

3 )分别计算把(MIN, Ai )和(Ai, MAX )作为区间值时的增益值, 进行 比较;

4 )选取增益值最大的 Ak作为该连续型属性的断点,把属性值设为(M IN, Ak )和(Ak, MAX ) 两个区间。

在本发明实施例中, 通过决策树确定阈值的具体步骤是:

第一, 首先对选定的几个样本做部分区域的 PCR验证得到微缺失结果; 用 "+"代表缺失阳性, 即有微缺失, "-"代表缺失阴性, 即没有微缺失; 计算熵:

Info(D)=-(P+)log2 (P+)-(P-)log2(P-)„

其中 p+ ( P- )表示在整个训练组中阳 (阴)性缺失出现的概率, 可以用属 于此类别元素的数量除以训练组元素总数量作 为估计。 熵的实际意义表示是 D

22

替换页 (细则第 26条) 中元组的类标号所需要的平均信息量。

第二, 计算比值 Tl , T1等于样本区域均一化的深度值与所有样本的 度值 的中位数的比值;对得到的比值 T1从小到大排序,得到 VI、 V2、 V3 Vn; 依次取一对相邻值的平均值作为阈值 al,=(Vl+V2)/2、 a2,=(V2+V3)/2、 ,..、 a ( n-1 ),=(Vn-l+Vn)/2; 得到阔值最小值 al,与阈值最大值 a ( n-1 ),。

第三, 计算比值 T2, Τ2等于样本区域均一化的深度值与所有区域的 深度值 的中位数的比值,对得到的比值 Τ2从小到大排序,得到 Ul、 U2、 U3 Un; 依次取一对相邻值的平均值作为阅值 bl,=(Ul+U2)/2、 b2'=(U2+U3)/2 b

( n-1 ),=(Un-l+Un)/2; 得到阈值最小值 M,与阈值最大值 b ( n-1 ),;

第四, 对于循环得到 al,、 a2,、 …, 计算得到不同分割值的熵:

而信息增益即为两者的差值:

g in(A) = info(D) - info A (D)

第五, 对于循环得到的分割值 bl,、 ' ... , 计算得到不同分割值的熵: mfo D) =

而信息增益即为两者的差值:

gain{A) info(D)― info A (D)

第六, 比较两组的信息增益量的最大增益, 较大者的属性(a )则为树根; 将增益量最大的阔值阀值对信息进行分类, 如图 17所示;

第七, 然后通过如上步骤, 计算两组数据的深度除以区域中位数深度的最 大增益, 将增益量最大的阈值作为阀值对信息进行分类 , 如图 18所示, 即为在 本发明中最终确定的决策树。 在又一优选实施例中, 如图 19所示,根据得到的样本的 STS区域的均一化 的深度值, 采用数理统计方法, 检测所述样本 STS区域的深度值异常值, 并获 得所述样本 STS区域微缺失的结果的步骤包括:

步骤 1901: 才艮据得到的所有样本的同一区域的均一化的 深度值, 计算所述 所有样本的同一区域的均一化深度值的平均值 以及方差;

23

替换页 (细则第 26条) 步骤 1902: 根据所述所有样本的同一区域的均一化深度值 的平均值以及方 差, 获得所述同一区域所有非离群样本的正态分布 曲线;

步骤 1903: 根据所述正态分布曲线, 计算每个样本在每个区域在特定深度 值时的概率值;

步骤 1904: 根据每个样本在每个区域在特定深度值时的概 率值, 设置第三 概率值阈值, 若所述样本区域在特定深度值时的概率值小于 所述第三概率值阈 值, 则获得所述样本区域有 缺失的结果 R3;

步骤 1905:计算所述结果 R3中样本区域均一化的深度值与所有样本的深 值的中位数的比值 D/S;

步骤 1906:计算所述结果 R3中样本区域均一化的深度值与所有区域的深 值的中位数的比值 D/R;

步骤 1907: 将所述比值 D/S 通过 ID3算法训练出第三比值阈值, 将所述比 值 D/R通过 ID3算法训练出第四比值阈值;

步骤 1908: 若样本区域的比值 D/S大于第三比值阈值, 则获得所述样本区 域没有微缺失的结果;

步骤 1909: 若样本区域的比值 D/S小于第三比值阈值, 并且样本区域的比 值 D/R大于第四比值阈值, 则获得所述样本区域没有微缺失的结果;

步骤 1910: 若样本区域的比值 D/S小于第三比值阈值, 并且样本区域的比 值 D/R小于第四比值阈值, 则获得所述样本区域有微缺失的结果。

在实际应用中, 为了更精确地检测出微缺失区域, 可以采用了结合以上两 种方法的策略; 先预设一个较为宽松的 p.value-阈值, 然后对得到的结果再进行 决策树的过滤, 得到染色体 STS区域微缺失的结果。

本发明基于染色体序列标签位点 STS区域微缺失检测的方法, 根据 STS区 域的 DNA序列, 设计获得捕获探针, 探针涵盖了整个染色体上 STS区域, 与多 样本的 DNA混合文库进行杂交后, 捕获到的多样本中 STS区域的 DNA序列, 能够大量、 高效、 准确地检测出染色体上已经报道或者未经报道 的 STS相关区 域的微缺失, 另外, 本发明的数理统计信息分析可以按照正态分布 的方法, 也 可以按照决策树的分析方法, 或者将两种方法结合起来, 最后还通过实验进行 验证, 这种信息分析流程科学、 稳定, 灵敏度高、 假阳性低, 可以有效的针对 微缺失进行分析。

以下实施例用于解释本发明, 而不用于限定本发明。 本实施例中的操作为 本领域的人员可以理解的内容。 本实施例中所用试剂和耗材未注明生产商者, 均为可通过市场购买的通用产品。 本实施例以检测 Y染色体 STS区域 缺失的 情况为例, 但不限于 Y染色体。 本实施例采用 10个不孕不育样本以及 1个健康 人样本合计 11个样本, 一起建库后杂交同一张 Nimblegen ( Roche )芯片, 本实 施例样本数用于说明而不是限定一次实验的样 本数。

实施例中所使用试剂如表 2:

Cot-1 DNA 15279-011 Invitrogen

表 2 本发明实施例中所使用的试剂

本发明实施例的实验流程包括:

(一 )基因组 DNA片段化, 就是单样本的 DNA文库的制备的步骤中: 利 用物理或化学的方法将基因组 DNA打断成预定大小的 DNA片段, 回收所述打 断的 DNA片段。

以重量为 3 g 的无蛋白质、 RNA 污染且没有降解的炎黄基因组 DNA ( http:〃 yh.genomics.org.cn/ )为起始材料,使用 Covaris-S2超声打断仪( Covaris,

US )仪器进行打断。 打断参数设置如表 3:

表 3 Covaris-S2超声打断仪参数设置

打断后的片段经电泳检测合格后, 使用 QIAquick PCR Purification Kit回收 纯化, 样本溶于 75 L Elution Buffer中。 此处片段经电泳检测合格主要是指主带 集中在 200bp~300bp之间。

(二) 片段 DNA末端修复, 也就是单样本的 DNA文库的制备的步骤中: 利用酶对所述回收的 DNA片段进行末端修复, 形成补平的末端磷酸化的 DNA 片段, 回收所述补平的末端磷酸化的 DNA片段。

将上一步得到的 DNA按表 4在 1.5ml的离心管中配制末端修复反应体系: 样品 DNA 75μL

10x Polynucleotide Kinase Buffer 10μ

dNTP Solution Set ( lOmM each ) 4μ

T4 DNA Polymerase 5μL

Klenow Fragment l μL

T4 Polynucleotide Kinase 5μL

Total volume ΙΟΟμ 表 4末端修复反应体系

将上述 100 反应混合物轻微混匀后,于 20°C温浴 30 分钟后,用 QIAquick PCR Purification Kit纯化回收, 回收的 DNA最后于 32 μ ddH20中充分溶解。

(三) DNA片段末端加" A", 也就是单样本的 DNA文库的制备的步骤中: 利用酶对所述回收的补平的 DNA片段的 3,末端加上" A"碱基, 回收所述 3,末端 加上" A"碱基的 DNA片段。

末端修复后的 DNA片段按表 5在 1.5ml离心管中配制加 "A"反应体系:

DNA 32μL

10x blue buffer 5μL

dATP(lmM)

Klenow (3'-5' exo-) 3μL

Total volume 50μ 表 5 末端修复后的 DNA片段加 "A"反应体系

将上述 50 L反应混合物轻微混匀后, 于 37°C温浴 30分钟后, 用 QIAquick PCR Purification Kit纯化回收, 回收的 DNA最后于 15 ddH20中充分溶解。

(四 )标签接头 Adapter的连接, 也就是单样本的 DNA文库的制备的步骤 中: 使所述回收的 3,末端加上" A"碱基的 DNA 片段在酶的作用下与标签接头 Index Adapter连接, 并回收带有标签接头的 DNA片段。

在 1.5 ml的离心管中配制 Adapter连接反应体系, 如表 6所示:

末端加 "A"的 DNA 15μL

2x Rapid ligation buffer 25μL

PE/PE index Adapter oligo mix(40 μΜ) 5μL

T4 DNA Ligase (Rapid) 5μL

Total volume 50 μ 表 6 标签接头 Adapter连接反应体系

上述 50 L反应混合物轻微振荡混合均匀, 瞬时离心后置于 20°C温浴 15分 钟, 反应完后用 MiniElute PCR Purification Kit进行纯化回收, 最后将回收的样 品溶于 25μL Elution Buffer„ (五)杂交前 PCR, 也就是单样本的 DNA文库的制备的步骤中: 以标签接 头序列的引物做为引物, 对所述带有标签接头的 DNA片段进行扩增, 回收所述 扩增的产物。 以步骤(四) 中 DNA为模板扩增, 以含有接头序列的引物进行扩增, 扩增 体系如表 7:

含接头序列的 DNA 25 μL

10x pfx amplification buffer 10 μ

MgS04 ( 50mM ) 4 μL

dNTP mix (lOmM) 4 μL

Platinum® Pfx DNA Polymerase 2 μL

PCR Primer PE 1.0/PE Index Primer 1.0 ( ΙΟρΜ ) 10 μ

PCR Primer PE 2.0/PE Index Primer 2.0 ( index,

10 μ

ΙΟρΜ )

ddH20 35 μL

Total volume ΙΟΟμΙ^ 表 7 PCR扩增体系

PCR程序为 94°C 2分钟; 4个循环的 94 °C 15秒, 62 °C 30秒, 72 °C 30秒; 72 °C 5分钟。 PCR产物用 QIAquick PCR Purification Kit纯化,洗脱体积为 30μΙ^。

(六)混合文库构建,也就是所述多样本的 DNA混合文库的制备的步骤中: 将所述多个单样本的 DNA文库按照预定比例混合, 比如可以是相同比例。 在实 际应用中, 可以根据构建文库的需要, 确定合适的比例。

炎黄文库(http://yh.genomics.org.cn ) 与按照步骤(一) 至 (五)构建的其 他 10个文库取等量的 DNA混合在一起。

(七) 目标区域与探针的杂交: 也就是一种基于染色体序列标签位点 STS 区域微缺失检测的方法中:将所述捕获探针与 多样本的 DNA混合文库进行杂交, 以捕获多样本中 STS区域的 DNA序列。

1 )在 1.5ml离心管中加入 450 g的 COT-1 DNA、 3 g来自步骤(六)的文 库混合产物、 lnmol Index-adpater 1 -block和 Index-adpater2 -block ( Multiplexing Sample Preparation Oligonucleotide Kit, Illumina ),混合物置于 SpeedVac( Thermo ) 中蒸干, 温度设置为 60°C。

2 )在蒸干的离心管中加入 Ι Ι .ΙμΙ纯水, 充分溶解 DNA后加入 18.5μ 的 2xSC Hybridiation Buffer和 7.3 L的 SC Hybridiation, 充分混匀后将混合物转移 至杂交仪( Nimblegen )上 95 °C干浴器中, 经过 10分钟使 DNA变性。

3 )将样品取出震荡后置于离心机上全速离心 30秒,置于杂交仪 ( Nimblegen ) 上 42 °C离心管放置位置, 准备杂交。

4 ) 杂交方法参照 NimbleGen公司芯片杂交方法 ( NimbleGen Arrays User's Guide, Version 3.1, 7 Jul 2009, Roche NimbleGen, Inc. )。 样品上样量 35μΙ^, 42 °C 杂交 64-72 小时, 用 90(^L 160mM NaOH 洗脱, 洗脱产物用 MinElute PCR Purification Kit纯化, 最终用 80μΙ^ Elution Buffer洗脱。

(八 )捕获后 PCR:

捕获后的文库进行 PCR扩增, 体系为 Phusion Mix 150μΕ, 上下游引物各 4.2μL ( Multiplexing Sequencing Primers and Phix Control Kit ), 上述的 80μL洗脱 样品加 85μΙ^ ddH20, 混合后分 6管进行 PCR, PCR循环数为 16。 PCR反应后 把 6管混合, 并用 QIAquick PCR Purification Kit磁珠纯化回收 300~450bp大小 的片段, 洗脱体积为 50 L。

(九)文库检测:

Bioanalyzer analysis system (Agilent, Santa Clara, USA)检测文库插入片段大 小及含量; Q-PCR精确定量文库的浓度。

(十)测序及数据分析: 也就是一种基于染色体序列标签位点 STS区域微 缺失检测的方法中:将所述捕获的相应捕获探 针的多样本中 STS区域的 DNA序 列进行测序, 得到测序数据; 采用数理统计方法对所述测序数据进行分析, 根 据所述分析结论, 获得每个样本中染色体 STS区域微缺失的结果。

步骤(九) 中检测合格后的文库上机测序, 测序方法参照 Illumina公司 HiSeq2000 操作方法 ( HiSeq 2000 User Guide. Catalog # SY-940-1001 Part # 15011190 Rev B , Illumina )。 本发明实施例的信息分析流程如下:

1. 接收高通量测序技术得到的测序数据, 对测序数据进行质控: 也就是所 述对多样本中 STS区域的 DNA序列的测序数据进行质量控制的步骤中:对 所述 多样本中 STS区域的 DNA序列的测序数据的序列中不合格的序列进行 过滤,得 到合格的多样本的测序数据的序列。

在本发明实施例中, 采用 Illumina Hiseq 2000高通量测序技术。接收到测序 序列后, 对测序序列进行过滤, 去除不合格的序列。 不合格序列包括: 测序质 量值低于 5的碱基个数超过整条序列碱基个数的 50%则认为是不合格序列; 序 列中测序结果中 N的个数超过整条序列碱基个数的 10%则认为是不合格序列; 与测序接头序列库进行比对, 若序列中存在测序接头序列则认为是不合格序 歹l。

2. 样本区域深度统计: 也就是所述对多样本中 STS区域的 DNA序列的测 序数据进行质量控制的步骤中: 通过短序列对比软件, 将所述合格的多样本的 测序数据与参考基因组序列进行对比, 并统计每个样本的测序深度的相关参数 以及不同样本之间相同的 STS区域的测序深度的相关参数。

在本实施例中,采用 SOAPaligner比对程序,将高通量测序技术得到的 序 数据比对到人参考基因组序列上, 人参考基因组序列采用 HG19 ( http://genome.ucsc.edu/ )。 比对后, 进行样品区域测序深度进行统计。

3. 对每个样品进行深度统计, 也就是所述对多样本中 STS区域的 DNA序 列的测序数据进行质量控制的步骤中: 根据所述统计得到的每个样本的测序深 度的相关参数,过滤掉不合格的样本的测序数 据,得到合格的样本的测序数据。

对深度离群深度值离群的样本进行过滤, 深度处于 Q1减去 1.5倍 IQR和 Q3加上 1.5倍 IQR ( Ql、 Q3为下、 上四分位数, IQR为四分位数间距)范围之 外的深度的样本定义为离群样本, 不用这些样本进行下一步正态分布曲线的构 建。 如图 20所示, 过滤掉深度异常的样品, 在图 20中, 左边的图例是样品测 序深度中位数的柱状统计图, 右边以箱线图来表示样品测序深度中位数结果 , 由柱状图与箱线图可以看出样品测序深度中位 数主要落在 42~60X。 4. 对每个区域深度进行统计, 也就是所述对多样本中 STS区域的 DNA序 列的测序数据进行质量控制的步骤中: 根据所述统计得到的不同样本之间相同 的 STS区域的测序深度的相关参数, 过滤掉不合格 STS区域的测序数据, 得到 合格 STS区域的测序数据。

把为 0或大于 Q3加上 1.5倍 IQR( Q3为上四分位数, IQR为四分位数间距 ) 的区域当作离群点去掉, 不对其进行敫缺失的检验。 如图 21所示, 左边的图例 是区域测序深度中位数的柱状统计图, 右边以箱线图来表示样品区域测序深度 中位数结果, 由柱状图与箱线图可以看出样品区域测序深度 中位数主要落在 35~75X。

5.进行数据质控去掉深度值离群的区域或样本 后,对每个样本的深度值进 行均一化处理, 每个区域深度值除以改样本深度的平均值, 得到标准化之后的 深度值, 然后利用正态分布曲线进行极端值检验。 也就是所述根据得到的样本 的 STS区域的均一化的深度值, 采用数理统计方法, 检测所述样本 STS区域的 深度值异常值, 并获得所述样本 STS区域微缺失的结果的步骤包括: 根据得到 的所有样本的同一区域的均一化的深度值, 计算所述所有样本的同一区域的均 一化深度值的平均值以及方差; 根据所述所有样本的同一区域的均一化深度值 的平均值以及方差, 获得所述同一区域所有非离群样本的正态分布 曲线; 根据 所述正态分布曲线, 计算每个样本在每个区域在特定深度值时的概 率值; 根据 每个样本在相应区域在特定深度值时的概率值 , 设置第一概率值阈值, 若所述 样本所在区域在特定深度值时的概率值小于所 述概率值第一概率值阈值, 则获 得所述样本区域有微缺失的结果 R1 ; 对所述样本区域有微缺失的结果 R1进行 实验验证, 根据实验验证结果, 设置第二概率值阈值, 其中, 所述第二概率值 阈值小于第一概率值阈值; 若所述样本区域在特定深度值时的概率值小于 所述 第二概率值阈值, 则获得所述样本区域有微缺失的结果 R2。

对每个深度值离群过滤之后的区域, 取深度值离群过滤之后的样本的数据, 根据其平均值和方差, 得到该区域所有非离群样本数据的正态分布曲 线。 根据 该曲线, 得到该区域深度为某个特定值的概率值 p.value。 如图 22所示, 图形横 坐标为样品, 纵坐标为 -loglO ( p-value ); 如图 23所示的图形是说明 p-value值 得期望值与观察值的结果。 通过这个方法, 求得测序得到的每个样本每个区域 深度的概率值。对概率值较低的 20个样本区域进行 PCR反应验证,根据验证的 结果对微缺失检验的概率值阈值进行确定, 并对微缺失检验的准确性进行评估, 具体步骤是:

首先选定一些样品的部分区域, 其中包括了缺失阳性及缺失阴性且 p.value 值跨度比较大的区域; 然后对不同区域的两端进行引物设计, 对样品库做 PCR 扩增, 最后做电泳分析得到微缺失的结果; 最终通过统计得到具有统计意义的 P.value的阀值。如表 8所示,即为得到不同的深度对应的真阳性率 假阳性率, 验证得到这个基于高通量测序的微缺失的检验 方法的 AUC(area under curve)值 可以达到 0.9968254, 如图 24所示, 横坐标是支阳性比例, 纵坐标是真阳性比 例, 图 24是根据不同的真阳性率和假阳性率要求可选 不同的概率值的阈值。

阈值 真阳性 i阳性

0 1 1

1 1 0.20952381

2 1 0.123809524

3 1 0.076190476

4 1 0.038095238

5 1 0.028571429

6 0.974358974 0.028571429

7 0.897435897 0.019047619

8 0.871794872 0.00952381

9 0.846153846 0.00952381

10 0.846153846 0

11 0.820512821 0

12 0.512820513 0

13 0.512820513 0

14 0.512820513 0

15 0.512820513 0

16 0.512820513 0

17 0.512820513 0

18 0.512820513 0

19 0.512820513 0

20 0.487179487 0

21 0.256410256 0 22 0.256410256 0

23 0 0 表 8 p-value取 -loglO的对数后采用不同阈值得到不同的真、 假阳性

6.另外借助样品区域深度值, 通过决策树(如图 18 ), 判定样品区域缺失阳 性还是阴性。 也就是所述根据得到的样本的 STS区域的均一化的深度值, 采用 数理统计方法, 检测所述样本 STS区域的深度值异常值, 并获得所述样本 STS 区域微缺失的结果的步骤包括:根据得到的样 本的 STS区域的均一化的深度值, 计算所述样本区域均一化的深度值与所有样本 的深度值的中位数的比值 D/S;根 据得到的样本的 STS区域的均一化的深度值, 计算所述样本区域均一化的深度 值与所有区域的深度值的中位数的比值 D/R; 将所述比值 D/S 通过 ID3算法训 练出第一比值阈值, 将所述比值 D/R通过 ID3算法训练出第二比值阈值; 若样 本区域的比值 D/S大于第一比值阈值,则获得所述样本区域没 有 缺失的结果; 若样本区域的比值 D/S小于第一比值阈值, 并且样本区域的比值 D/R大于第二 比值阈值, 则获得所述样本区域没有 缺失的结果; 若样本区域的比值 D/S 小 于第一比值阈值, 并且样本区域的比值 D/R小于第二比值阈值, 则获得所述样 本区域有微缺失的结果。

在本实施范例中, 预先设置了相对宽松 p-value 阈值 10_ 6 , 然后对这部分阳 性结果进行决策树分类, 从而进一步降低假阳性率, 最终得到样品区域缺失位 到的样本的 STS区域的均一化的深度值,采用数理统计方法 ,检测所述样本 STS 区域的深度值异常值, 并获得所述样本 STS区域微缺失的结果的步骤包括: 根 据得到的所有样本的同一区域的均一化的深度 值, 计算所述所有样本的同一区 域的均一化深度值的平均值以及方差; 根据所述所有样本的同一区域的均一化 深度值的平均值以及方差, 获得所述同一区域所有非离群样本的正态分布 曲线; 根据所述正态分布曲线, 计算每个样本在每个区域在特定深度值时的概 率值; 根据每个样本在每个区域在特定深度值时的概 率值, 设置第三概率值阈值, 若 所述样本区域在特定深度值时的概率值小于所 述第三概率值阈值, 则获得所述 样本区域有微缺失的结果 R3; 计算所述结果 R3 中样本区域均一化的深度值与 所有样本的深度值的中位数的比值 D/S; 计算所述结果 R3中样本区域均一化的 深度值与所有区域的深度值的中位数的比值 D/R; 将所述比值 D/S 通过 ID3算 法训练出第三比值阈值, 将所述比值 D/R通过 ID3算法训练出第四比值阈值; 若样本区域的比值 D/S 大于第三比值阈值, 则获得所述样本区域没有 缺失的 结果; 若样本区域的比值 D/S小于第三比值阈值, 并且样本区域的比值 D/R大 于第四比值阈值, 则获得所述样本区域没有 缺失的结果; 若样本区域的比值 D/S小于第三比值阈值, 并且样本区域的比值 D/R小于第四比值阈值, 则获得 所述样本区域有微缺失的结果。

本发明还提供一种计算机可读介质, 所述介质承载一系列指令以控制计算 机处理器执行如上所述的方法, 在此也不再赘述。

图 25是本发明基于染色体序列标签位点 STS区域微缺失检测的装置一实施 例的结构示意图。 如图 25 , 所述装置包括: 捕获探针获得模块 2501、 杂交模块 2502、 测序数据获得模块 2503以及微缺失结果获得模块 2504。

捕获探针获得模块 2501用于选取染色体上的 STS区域, 根据所述 STS区 域的 DNA序列, 设计得到相应的捕获探针。

STS ( sequence-tagged site )序列标签位点, 是基因组上定位明确、 作为界 标并能够通过 PCR扩增、 被唯一操作的短的、 单拷贝的 DNA序列, 用于产生 作图位点, 即测定一系列 STS的次序即可作出基因组区域的图谱。 探针是一小 段单链 DNA或者 RNA片段(大约是 20到 500bp ) , 用于检测与其互补的核酸 序列。

杂交模块 2502用于将所述捕获探针与多样本的 DNA混合文库进行杂交, 以捕获多样本中 STS区域的 DNA序列。

DNA文库是指某一特定来源 DNA通过细胞 - DNA克隆技术构建呈含有所 用 DNA片段的重组 DNA分子,并转化至细菌内,构成 DNA文库。此处的 DNA 混合文库是指所有样本混合在一起的所用 DNA片段。 测序数据获得模块 2503用于将所述捕获的相应捕获探针的多样本 STS区 域的 DNA序列进行测序, 得到测序数据。

微缺失结果获得模块 2504用于采用数理统计方法对所述测序数据进 分析, 根据所述分析结论, 获得每个样本中染色体 STS区域微缺失的结果。

其中, 捕获探针获得模块 2501包括: 区域查找单元, 用于在基因组数据库 (GDB)中查找染色体上的 STS区域的 DNA序列; 序列挑选单元, 用于在所述查 得单元, 用于根据所述挑选到的符合捕获探针设计条件 的序列, 设计并合成得 到捕获探针。

所述基因组数据库 (GDB , http://www.gdb.org/)为人类基因组计划 (HGP)保存 和处理基因组图谱的数据库。 GDB是构建关于人类基因组的百科全书, 除了构 建基因组图谱之外, 还开发了描述序列水平的基因组内容的方法, 包括序列变 异和其它对功能和表型的描述。 GDB数据库以对象模型来保存数据, 提供基于 Web 的数据对象检索服务, 用户可以搜索各种类型的对象, 并以图形方式观看 基因组图谱。 例如, 找出 Y染色体上 STS序列在 UCSC数据库中, 在人类基 因组参考序列 Hgl9 ( http:〃 genome .ucsc.edu/ ) 的位置坐标 , 才艮据位置坐标即可 找到 Υ染色体上 STS区域的 DNA序列。 在具体实施例中, 在基因组数据库中 查找染色体上的 STS 区域的 DNA 序列的位置坐标, 将此坐标提交给 Roche-NimbleGen或其他的提供 DNA捕获服务的公司, 由这些公司完成捕获探 针的设计与合成。

其中, 所述装置还包括多样本 DNA混合文库制备模块, 所述多样本 DNA 混合文库制备模块包括: 单样本 DNA文库制备单元, 用于制备多个带有不同接 头的质量控制合格的单样本的 DNA文库; 单样本文库混合单元, 用于将所述多 个单样本的 DNA文库按照预定比例混合; 多样本 DNA混合文库获得单元, 用 于检验所述混合的多样本的 DNA文库的质量是否合格, 若是, 即为制备的多样 本的 DNA混合文库。 其中, 所述装置还包括测序数据质控模块, 所述测序数据质控模块包括: 合格序列获得单元,用于对所述多样本中 STS区域的 DNA序列的测序数据中不 合格的数据进行过滤, 得到合格的多样本的测序数据; 测序深度统计单元, 用 于通过短序列对比软件, 将所述合格的多样本的测序数据与参考基因组 序列进 行对比, 并统计每个样本的测序深度的相关参数以及不 同样本之间相同的 STS 区域的测序深度的相关参数; 合格样本获得单元, 用于根据所述统计得到的每 个样本的测序深度的相关参数, 过滤掉不合格的样本的测序数据, 得到合格的 样本的测序数据; 合格区域获得单元, 用于根据所述统计得到的不同样本之间 相同的 STS 区域的测序深度的相关参数, 过滤掉不合格 STS 区域的测序数据, 得到合格 STS区域的测序数据。

其中, 所述微缺失结果获得模块包括: 深度值均一化单元, 用于将样本的 STS 区域的测序深度值进行均一化, 得到均一化的深度值; 微缺失结果获得单 元, 用于根据得到的样本的 STS区域的均一化的深度值, 采用数理统计方法, 检测所述样本 STS区域的深度值异常值, 并获得所述样本 STS区域微缺失的结 果。

其中, 所述深度值均一化单元具体用于将所有样本中 相同区域的深度值除 以每个样本深度值的平均值, 得到所述样本区域均一化的深度值。

其中, 如图 26所示, 所述微缺失结果获得单元包括:

平均值方差获得单元 2601 , 用于根据得到的所有样本的同一区域的均一化 的深度值, 计算所述所有样本的同一区域的均一化深度值 的平均值以及方差; 正态分布曲线获得单元 2602 , 用于根据所述所有样本的同一区域的均一化 深度值的平均值以及方差, 获得所述同一区域所有非离群样本的正态分布 曲线; 概率值计算单元 2603 , 用于根据所述正态分布曲线, 计算每个样本在每个 区域在特定深度值时的概率值;

第一判断单元 2604, 用于根据每个样本在相应区域在特定深度值时 的概率 值, 设置第一概率值阈值, 若所述样本所在区域在特定深度值时的概率值 小于 所述概率值第一概率值阈值, 则获得所述样本区域有微缺失的结果 Rl。 在一优选实施例中, 如图 27所示, 所述 缺失结果获得单元还包括: 概率值阈值确定单元 2701 ,用于对所述样本区域有微缺失的结果 R1进行实 验验证, 根据实验验证结果, 设置第二概率值阈值, 其中, 所述第二概率值阈 值小于第一概率值阈值;

第二判断单元 2702, 用于若所述样本区域在特定深度值时的概率值 小于所 述第二概率值阈值, 则获得所述样本区域有微缺失的结果 R2。

如图 28所示, 在又一优选实施例中, 所述 缺失结果获得单元包括: 比值 D/S获得单元 2801 , 用于根据得到的样本的 STS区域的均一化的深度 值,计算所述样本区域均一化的深度值与所有 样本的深度值的中位数的比值 D/S; 比值 D/R获得单元 2802,用于根据得到的样本的 STS区域的均一化的深度 值,计算所述样本区域均一化的深度值与所有 区域的深度值的中位数的比值 D/R; 第一、 二比值阈值获得单元 2803 , 用于将所述比值 D/S 通过 ID3算法训练 出第一比值阈值, 将所述比值 D/R通过 ID3算法训练出第二比值阈值;

第一判断单元 2804, 用于若样本区域的比值 D/S大于第一比值阈值, 则获 得所述样本区域没有微缺失的结果;

第二判断单元 2805, 用于若样本区域的比值 D/S小于第一比值阈值, 并且 样本区域的比值 D/R大于第二比值阈值, 则获得所述样本区域没有微缺失的结 果;

第三判断单元 2806, 用于若样本区域的比值 D/S小于第一比值阈值, 并且 样本区域的比值 D/R小于第二比值阈值,则获得所述样本区域有 微缺失的结果。

如图 29所示, 在又一优选实施例中, 所述 缺失结果获得单元包括: 平均值方差获得单元 2901 , 用于根据得到的所有样本的同一区域的均一化 的深度值, 计算所述所有样本的同一区域的均一化深度值 的平均值以及方差; 正态分布曲线获得单元 2902, 用于根据所述所有样本的同一区域的均一化 深度值的平均值以及方差, 获得所述同一区域所有非离群样本的正态分布 曲线; 概率值计算单元 2903 , 用于根据所述正态分布曲线, 计算每个样本在每个 区域在特定深度值时的概率值;

第一判断单元 2904, 用于根据每个样本在每个区域在特定深度值时 的概率 值, 设置第三概率值阈值, 若所述样本区域在特定深度值时的概率值小于 所述 第三概率值阈值, 则获得所述样本区域有微缺失的结果 R3;

比值 D/S获得单元 2905, 用于计算所述结果 R3中样本区域均一化的深度 值与所有样本的深度值的中位数的比值 D/S;

比值 D/R获得单元 2906, 用于计算所述结果 R3中样本区域均一化的深度 值与所有区域的深度值的中位数的比值 D/R;

第三、 四比值阈值获得单元 2907, 用于将所述比值 D/S 通过 ID3算法训练 出第三比值阈值, 将所述比值 D/R通过 ID3算法训练出第四比值阈值;

第二判断单元 2908, 用于若样本区域的比值 D/S大于第三比值阈值, 则获 得所述样本区域没有微缺失的结果;

第三判断单元 2909, 用于若样本区域的比值 D/S小于第三比值阈值, 并且 样本区域的比值 D/R大于第四比值阈值, 则获得所述样本区域没有微缺失的结 果;

第四判断单元 2910, 用于若样本区域的比值 D/S小于第三比值阈值, 并且 样本区域的比值 D/R小于第四比值阈值,则获得所述样本区域有 微缺失的结果。

本发明基于染色体序列标签位点 STS区域微缺失检测的装置, 根据 STS区 域的 DNA序列, 设计获得捕获探针, 探针涵盖了整个染色体上 STS区域, 与多 样本的 DNA混合文库进行杂交后, 捕获到的多样本中 STS区域的 DNA序列, 能够大量、 高效、 准确地检测出染色体上已经报道或者未经报道 的 STS相关区 域的微缺失, 另外, 本发明的数理统计信息分析可以按照正态分布 的方法, 也 可以按照决策树的分析方法, 或者将两种方法结合起来, 最后还通过实验进行 验证, 这种信息分析流程科学、 稳定, 灵敏度高、 假阳性低, 可以有效的针对 微缺失进行分析。 以上所述仅为本发明的实施例, 并非因此限制本发明的专利范围, 凡是利 用本发明说明书及附图内容所作的等效结构或 等效流程变换, 或直接或间接运 用在其他相关的技术领域, 均同理包括在本发明的专利保护范围内。