Login| Sign Up| Help| Contact|

Patent Searching and Data


Title:
METHOD FOR ANALYZING HIGH-THROUGHPUT NUCLEIC ACID AND APPLICATION THEREOF
Document Type and Number:
WIPO Patent Application WO/2014/101655
Kind Code:
A1
Abstract:
Disclosed are a method for analyzing high-throughput nucleic acid and an application thereof. Among n nucleic acid fragments to be analyzed, for each target nucleic acid fragment, at least two specific probes bound to different binding domains of the target nucleic acid fragment are provided, each specific probe has a specific binding domain and a universal sequence domain, a sequence of the specific binding domain and a sequence of the binding domain of the target nucleic acid fragment are complementary, and a sequence of the universal sequence domain is corresponding to a sequence of a sequencing primer.

Inventors:
JIANG ZHENGWEN (CN)
YANG FENG (CN)
Application Number:
PCT/CN2013/089131
Publication Date:
July 03, 2014
Filing Date:
December 11, 2013
Export Citation:
Click for automatic bibliography generation   Help
Assignee:
GENESKY BIOTECHNOLOGIES INC SHANGHAI (CN)
GENESKY DIAGNOSTICS SUZHOU INC (CN)
International Classes:
C12Q1/68
Foreign References:
CN101395280A2009-03-25
CN101921874A2010-12-22
CN102409101A2012-04-11
Attorney, Agent or Firm:
XU & PARTNERS, LLC. (CN)
上海一平知识产权代理有限公司 (CN)
Download PDF:
Claims:
权 利 要 求

1. 一种高通量核酸分析方法, 其特征在于, 包括步骤:

(1)对于待分析的 n种目的核酸片段, 针对每个目的核酸片段, 提供结合于所述目的核 酸片段的不同结合区的至少 2个特异探针,所述的各特异探针具有特异结合区和通用序列区, 并且所述的特异结合区的序列与目的核酸片段的结合区的序列互补,而所述通用序列区的序 列对应于测序引物的序列, 其中 n为 40的正整数;

(2)将含有待分析的目的核酸片段的核酸样本与步骤 (1)所述的探针杂交,并连接所述探 针,从而获得探针连接产物的混合物,其中各探针连接产物的 3'和 5'端都是序列对应于测序 引物序列的通用序列区;

(3)对步骤 (2)的探针连接产物的混合物进行测序, 和 /或分析, 从而获得目的核酸的信 息。

2. 如权利要求 1所述的方法, 其特征在于, 所述特异探针还具有选自下组的一个或多 个特征:

(1)所述特异探针的长度≤≡100bp, 优选地为 30-70bp, 更优选为 40-50bp;

(2)所述特异探针的特异结合区的长度为 50bp,优选地为 15-35bp,更优选为 20-25bp;

(3)特异探针的通用序列区长度为 8bp, 优选地为 15-35bp, 更优选为 20-25bp;

(4)所述特异探针的通用序列区的序列还对应于扩增引物序列;

(5)所述特异探针包括标签序列。

3. 如权利要求 1所述的方法, 其特征在于, 每个目的核酸片段对应的 2个探针为: 5 ' 端探针和 3 '端探针, 所述的 5 '端探针能够与位于待分析的目的核酸片段 3 '端的结合区互 补, 所述的 3'端探针能够与位于待分析的目的核酸片段 5 '端的结合区互补。

4. 如权利要求 3所述的方法, 其特征在于, 所述 5'端探针或 3 '端探针的结构如式 I 所示:

5 '-A— L— B-3 '

式 I

在式 I中,

A代表通用序列区;

B代表特异结合区;

L代表 A与 B的核酸连接序列;

其中, A与 B位置可以互换。

5. 如权利要求 3或 4所述的方法, 其特征在于, 5'端探针和 3 '端探针之间的连接关 系选自以下其中一组或多组:

(a) 5 '端探针和 3'端探针为紧邻探针: 即所述的 5'端探针和 3 '端探针与待分析的目 的核酸片段杂交后, 二者之间距离 0个碱基, 在连接酶的作用下进行连接, 从而获得探针连 接产物;

(b) 5 '端探针和 3'端探针距离 1-500个碱基: 所述的 5'端探针和 3 '端探针与待分析 的目的核酸片段杂交后, 在 DNA聚合酶和连接酶的作用下进行间隙聚合和连接, 从而获得 探针连接产物; (c) 杂交体系除了 5'端探针和 3 '端探针外, 还包括探针 3, 探针 3分别与 5'端探针 和 3 '端探针紧邻, 所述的三个探针与待分析的目的核酸片段杂交后, 在连接酶的作用下连 接, 从而获得探针连接产物。

6. 如权利要求 1所述的方法, 其特征在于, 步骤 和步骤3)之间还包括步骤: 对步骤 (2)的获得的探针连接产物进行扩增。

7. 如权利要求 1所述的方法, 其特征在于, 在步骤 (3)中, 用第三代测序技术或第二代 测序技术对探针连接产物的混合物或其扩增产物进行测序和分析。

8. 如权利要求 1所述的方法, 其特征在于, 在步骤 (3)中, 所述的获得目的核酸的信息 是指任选自下组的一个或多个信息: SNP分型信息、 DNA甲基化信息、 突变筛査信息、 CNP分型信息、 CNV信息、病原微生物基因信息、 转基因动植物产品基因信息、基因表 达水平。

9. 一种高通量 SNP分型方法, 其特征在于, 包括步骤: 使用权利要求 1所述的方法对 来源于待测样本的探针连接产物的混合物进行测序和 SNP分析, 获得目的核酸的 SNP分型 信息。

10. —种检测 CNV的方法, 其特征在于, 包括步骤: 使用权利要求 1所述的方法对 来源于待测样本的探针连接产物的混合物进行测序和 CNV分析,获得目的核酸的 CNV信息。

11. 一种高通量甲基化分析方法, 其特征在于, 包括步骤: 使用权利要求 1所述的 方法对来源于待测样本的探针连接产物的混合物进行测序和甲基化分析, 获得目的核酸 的甲基化信息。

Description:
一种高通量核酸分析方法及其应用 技术领域

本发明属于生物技术领域和分子诊断领域, 具体地, 本发明涉及一种高通量核酸分 析方法及其应用。 背景技术

基因是遗传的物质基础, 是 DNA或 RNA分子上具有遗传信息的特定核苷酸序列。 除了部分病毒遗传物质是 RNA外, 几乎所有非病毒生物的遗传物质是 DNA。 不同物种 都有其特异的基因序列, 因此通过检测样品中的基因序列可以判断样品 中存在的生物种 性。

生命过程中, 基因通过 DNA转录成 mRNA, 然后以 mRNA为模板, 翻译出有生物 活性的蛋白质分子, 从而将贮存在 DNA序列中遗传信息表现出来。 通过分析不同组织 中各 mRNA的量, 并结合不同组织的生理功能差异, 可以了解基因的功能, 因此基因的 表达分析是分子生物学研究基因功能最基本的 研究手段之一。

基因的表达受到多种调控因子的共同协调作用 , 其中 DNA的甲基化是调控基因表 达的重要方式之一。 DNA甲基化能引起染色质结构、 DNA构象、 DNA稳定性及 DNA 与蛋白质相互作用方式的改变, 从而达到控制基因表达的目的。 绝大多数情况下, 甲基 化主要发生在 CpG序列中的胞嘧啶核苷酸的胞嘧啶环的 5位碳原子上。

另外, 基因在复制过程中也会出现差错产生"突变", 这种突变包括点突变、 大片 段缺失 /重复 (称为拷贝数多态, CNV)、 基因倒位或基因易位等。 有的突变会严重影响 关键基因的功能从而导致疾病, 由于受到选择作用, 尽管这类突变在群体中的频率非 常低, 相当一部分突变由于并未严重影响基因功能或 影响的基因并不对个体造成生存 压力, 它们在群体中会保留下来并由于受到随机漂变 以及奠基者效应发生频率的改变, 从而成为群体中的一种遗传多态, 对于单碱基或寡碱基改变的多态被称之为单核 苷酸 多态 (SNP), 而对于大区段的缺失或重复多态被称之为拷贝 数多态 (CNP)。 遗传多态以 及基因突变分析是研究基因功能以及遗传性疾 病的致病机理最常见的遗传分析方法。

因此, 基因鉴定、 基因表达分析、 DNA甲基化分析、 突变筛查、 SNP分型、 CNP 分型以及 CNV检测是重要的分子遗传学研究手段, 而且在临床分子诊断上也有着广泛 的应用。 正因为这些遗传分析的重要性, 对于每一种分析, 科学家及工程师们都开发 出了多种检测方法。

早期的检测方法主要针对有限的目的片段分析 。 采用 PCR扩增对目标基因鉴定, 或采用实时荧光定量 PCR进行基因表达水平、 病毒含量、 基因拷贝数以及甲基化水平 的鉴定。 常见的 DNA甲基化分析主要针对亚硫酸处理后的 DNA进行甲基化测序或甲 基化特异 PCR分析。 突变筛査主要是采用 PCR扩增和 Sanger法测序, 然后通过比较 测序序列与参照序列获得突变情况。 用于 SNP检测的方法也很多, 如 TaqMan 探针等 位基因检测技术、 限制性内切酶反应 (RFLP)、 高分辨率融解曲线反应、 单碱基延伸技术 (飞行时间质谱平台、 Multiplex SNaPshot)、高温连接酶检测技术 (LDR,SNPscan)等。 中小 通量 CNV的检测方法主要包括实时定量 PCR、 FISH、 多重连接探针扩增技术 (; MLPA)、 多重荧光竞争 PCR技术 (AccuCopy)等。上述方法灵活性很高,但最大的 陷是通量太低, 对于需要检测大量基因位点的研究项目或诊断 需求时显得无能为力。

微阵列芯片 (; Micro array)以高密度探针阵列为特征,这些微阵列上 "印"有大量已知部 分序列的 DNA探针,利用分子杂交原理, 将各种处理过的荧光标记样本与微阵列探针 进行杂交, 然后经过洗涤去除非特异杂交信号, 最后用扫描仪进行荧光检测, 根据荧光 信号的强弱以及荧光信号所在的阵列位置确认 目的基因相关的信号量。该芯片能够同时 实现成千上万甚至是数百万基因片段或多态位 点的分析, 被广泛应用于物种鉴定、表达 谱分析、 高通量 SNP分析、 全基因组甲基化水平分析以及全基因组拷贝数 分析等等。 微阵列芯片最大的优势就是高通量, 能够在整个基因组水平上分析基因的变化,但 其缺 陷是由于普遍存在非特异性杂交,定量的准确 性较差,同时需要昂贵的杂交及扫描仪器, 成本高而且定制芯片时间长费用高, 对未知基因无法实现检测。

第二代测序技术的出现给基因检测领域带来个 革命性的变化。第二代测序技术的主 要原理为芯片单分子 PCR扩增后测序, 如 IUumina公司的 MiSeq、 GA IIx、 Hiseq2000 测序仪、 ABI公司的 Ion PGM、 Solid测序仪、 Roche公司的 454 GS FLX测序仪等。 第 二代测序技术能够同时实现数百万个甚至是数 亿个单分子扩增产物的测序, 它广泛应用 于基因组重测序快速鉴定致病基因、 转录组分析、 甲基化谱、 microRNA鉴定、 全基因 组水平的蛋白 -DNA相互作用研究以及新物种的基因组测序等 。

新一代以单分子直接测序的技术也在快熟研究 发展中, 主要代表公司为 Pacific Biosciences及 Helicos。 这种高通量测序技术的最大的优势就是通量很 大, 而且能够同 时实现对已知或未知基因进行鉴定并定量, 应此特异性及效率都非常高。但也存在一些 不足之处, 主要是相对于常规测序, 下一代测序的准确性稍差, 单分子扩增引入的突变 对最后的结果分析会造成影响, 再则该技术平台适合整个基因组或转录组的检 测, 如果 要实现对目的区域或一组基因的检测分析, 需要事先对样本进行目的基因区段的富集。 目前采用的富集方法有针对有限基因区域的多 重 PCR及微流体数字 PCR等技术, 而针 对大量基因区域方法主要是利用覆盖目的区域 的高密度探针序列与样本进行固相或液 相杂交将目的区域富集。这些富集技术主要用 于候选基因的突变检测, 但由于这些富集 过程在一定程度上消除了产物与原始模板量的 正比关系,因此不能准确实现对富集的候 选基因片段进行定量分析, 如表达量以及拷贝数分析。

因此目前本领域对于基因的检测, 特别是基因鉴定、 基因表达分析、 DNA甲基化 分析、 突变筛査、 SNP分型、 CNP分型以及 CNV检测中, 尚缺乏有效的检测方法, 因 此迫切需要开发一种有效的高通量基因分析方 法。 发明内容

本发明的主要目的就是提供一种高通量基因分 析方法及其应用。 在本发明的第一方面, 提供了一种高通量核酸分析方法, 包括步骤:

(1)对于待分析的 n种目的核酸片段, 针对每个目的核酸片段, 提供结合于所述目的核 酸片段的不同结合区的至少 2个特异探针,所述的各特异探针具有特异结 区和通用序列区, 并且所述的特异结合区的序列与目的核酸片段 的结合区的序列互补,而所述通用序列区的序 列对应于测序引物的序列, 其中 n为; ¾40的正整数;

(2)将含有待分析的目的核酸片段的核酸样本与 步骤 (1)所述的探针杂交, 并连接所述探 针,从而获得探针连接产物的混合物,其中各 探针连接产物的 3'和 5'端都是序列对应于测序 引物序列的通用序列区;

(3)对步骤 (2)的探针连接产物的混合物进行测序,和 /或分析,从而获得目的核酸的信息。 在另一优选例中, 所述的测序引物为高通量单分子或单分子扩增 簇测序平台的测序引 物。

在另一优选例中, n为 100的正整数, 较佳地为: 选自 1000-10000的正整数。

在另一优选例中, 所述通用序列区的序列对应于测序引物序列表 示: 通用序列区的序列 与测序引物序列完全相同或至少 8bp相同,或通用序列区的序列与测序引物序列 完全互补或 至少 8bp互补。

在另一优选例中, 所述特异探针还具有选自下组的一个或多个特 征:

(1)所述特异探针的长度 100bp, 优选地为 30-70bp, 更优选为 40-50bp。

(2)所述特异探针的特异结合区的长度为 50bp,优选地为 15-35bp,更优选为 20-25bp。 (3)特异探针的通用序列区长度为 5≥8bp, 优选地为 15-35bp, 更优选为 20-25bp。

(4)所述特异探针的通用序列区的序列还对应于 扩增引物序列;

(5)所述特异探针包括标签序列。

在另一优选例中, 所述的标签序列为一段 (优选 3个一 30个, 更优选 6个 -9个)特异 碱基组成的序列, 用于区别不同样本来源的探针连接产物。

在另一优选例中, 每个目的核酸片段对应的 2个探针为: 5 '端探针和 3 '端探针, 所述 的 5 '端探针能够与位于待分析的目的核酸片段 3'端的结合区互补, 所述的 3 '端探针能够 与位于待分析的目的核酸片段 5 '端的结合区互补。

在另一优选例中, 所述 5 '端探针或 3'端探针的结构如式 I所示:

5 '-A— L— B-3 '

式 I

在式 I中,

A代表通用序列区;

B代表特异结合区;

L代表 A与 B的核酸连接序列;

其中, A与 B位置可以互换。

在另一优选例中, 所述的 L为 0个碱基。

在另一优选例中, 5 '端探针和 3'端探针之间的连接关系选自以下其中一组或 组:

(a) 5 '端探针和 3 '端探针为紧邻探针:即所述的 5 '端探针和 3 '端探针与待分析的目的 核酸片段杂交后, 二者之间距离 0个碱基, 在连接酶的作用下进行连接, 从而获得探针连接 产物;

(b) 5'端探针和 3 '端探针距离 1-500个碱基:所述的 5 '端探针和 3'端探针与待分析的 目的核酸片段杂交后, 在 DNA聚合酶和连接酶的作用下进行间隙聚合和连 接, 从而获得探 针连接产物;

(c) 杂交体系除了 5 '端探针和 3'端探针外, 还包括探针 3, 探针 3分别与 5 '端探针 和 3 '端探针紧邻, 所述的三个探针与待分析的目的核酸片段杂交 后, 在连接酶的作用下连 接, 从而获得探针连接产物。

在另一优选例中, 所述探针 3长度为 l-500bp, 优选地 15-35bp, 更佳地为 20-25bp。 在另一优选例中, 对 (a)中所述的 3 '端探针的 5'端进行磷酸化修饰。

在另一优选例中, 对 (a)中所述的 3 '端探针的 3'端和 5'端探针的 5 '端进行抗核酸外切 酶的修饰保护。

在另一优选例中, 所述的抗核酸外切酶修饰为硫代修饰。

在另一优选例中, 在 (b)中, 5'端探针和 3 '端探针优选距离为 1-10个碱基。

在另一优选例中, 在 (b)中, 所述的 DNA聚合酶没有 5 '-3'外切酶活性。

在另一优选例中, 步骤 (2)和步骤 (3)之间还包括步骤: 对步骤 (2)的获得的探针连接产物 进行扩增。

在另一优选例中, 在步骤 (3)中, 对步骤 (2)获得的探针连接产物的混合物, 直接利用高 通量单分子或单分子扩增簇测序平台进行测序 ; 或对探针连接产物的混合物的扩增产物, 利 用高通量单分子或单分子扩增簇测序平台进行 测序。

在另一优选例中,在步骤 中,用第三代测序技术或第二代测序技术对探 针连接产物的 混合物或其扩增产物进行测序和分析。

在另一优选例中,步骤 (3)中,所述的获得目的核酸的信息是指任选自 下组的一个或多个 信息: SNP分型信息、 DNA甲基化信息、 突变筛査信息、 CNP分型信息、 CNV信息、 病 原微生物基因信息、 转基因动植物产品基因信息、 基因表达水平。

在本发明的第二方面, 提供了一种高通量 SNP分型方法, 包括步骤: 使用第一方面 所述的方法对来源于待测样本的探针连接产物 的混合物进行测序和 SNP分析, 获得目的核 酸的 SNP分型信息。

在另一优选例中, 所述的高通量 SNP分型方法包括步骤:

(1)对于待分析的 n种目的核酸片段, 针对每个目的核酸片段, 提供结合于所述目的核 酸片段的不同结合区的 3个特异探针: 2个 5'端探针和 1个 3'端探针, 所述的 5'端探针为等 位基因特异性探针, 并且最后一个碱基对应相应的等位基因碱基, 所述的 3'端探针为共用探 针, 其中 n为 40的正整数;

(2)将含有待分析的目的核酸片段的核酸样本与 步骤 (1)所述的探针杂交, 并连接所述探 针,从而获得探针连接产物的混合物,其中各 探针连接产物的 3'和 5'端都是序列对应于测序 引物序列的通用序列区;

(3)用所述测序引物, 对步骤 (2)的探针连接产物的混合物进行测序和分析, 获得目的核 酸的 SNP分型信息。

在本发明的第三方面, 提供了一种检测 CNV的方法, 包括步骤: 使用第一方面所 述的方法对来源于待测样本的探针连接产物的 混合物进行测序和 CNV分析, 获得目的核酸 的 CNV信息。

在另一优选例中, 所述的检测 CNV的方法包括步骤:

(1) 每个目的基因片段设计特异性探针 (优选地设计 2条探针, 1个 5 '端探针以及 1 个 3 '端探针);

(2) 将所有目的基因片段的连接探针与 DNA模板变性 -复性 -连接 (优选进行多次变 性-复性-连接循环);

(3)连接产物 PCR扩增或不扩增直接用核酸酶消化, 将不同样本的扩增产物混合后 进行下一代高通量芯片测序;

(4) 测序数据分析, 获得样本的目的基因拷贝数。

在本发明的第四方面, 提供了一种高通量甲基化分析方法, 包括步骤: 使用第一方 面所述的方法对来源于待测样本的探针连接产 物的混合物进行测序和甲基化分析, 获得 目的核酸的甲基化信息。

在另一优选例中, 所述高通量甲基化分析方法包括步骤: 对基因组 DNA采用甲基化 敏感的限制性内切酶进行处理, 针对切点处设计探针, 用权利要求 1所述的方法检测未 被切断的基因组 DNA量。

在另一优选例中, 所述高通量甲基化分析方法包括步骤: 对基因组 DNA进行亚硫酸 盐处理, 针对目的基因片段分别设计甲基化特异探针及 非甲基化特异探针, 通过检测两 种探针的连接产物量, 获得基目的基因区段的甲基化水平。

在本发明的第五方面, 提供了一种基因表达检测方法, 包括步骤: 使用第一方面所 述的方法进行检测。 应理解, 在本发明范围内中, 本发明的上述各技术特征和在下文 (如实施例)中具体 描述的各技术特征之间都可以互相组合, 从而构成新的或优选的技术方案。 限于篇幅, 在此不再 累述。 附图说明

下列附图用于说明本发明的具体实施方案, 而不用于限定由权利要求书所界定的本 发明范围。

图 1显示了本发明一个具体实施例中高通量测定 技术思路 1。

图 2显示了本发明一个具体实施例中高通量测定 技术思路 2。

图 3显示基于单分子直接或扩增后测序的高通量 接产物检测技术用于高通量 SNP 分型的流程。

图 4显示基于单分子直接或扩增后测序的高通量 接产物检测技术用于高通量 CNV 检测的流程。

图 5显示基于单分子直接或扩增后测序的高通量 接产物检测技术用于高通量目的 基因突变筛查的流程。

图 6显示基于单分子直接或扩增后测序的高通量 接产物检测技术用于高通量候选 基因表达分析的流程。

图 7显示基于单分子直接或扩增后测序的高通量 接产物检测技术用于高通量基因 甲基化水平分析的流程。

图 8显示实施例 2中 DMD基因外显子缺失重复的检测结果。 具体实施方式

本发明人经过广泛而深入的研究, 首次利用多重连接探针扩增技术的高特异性以 及 对目的片段的数量信息的良好保存特性, 利用下一代高通量测序技术平台对连接探针扩 增产物进行测序鉴定并定量, 从而实现高通量目的基因片段的定量分析。 在此基础上完 成了本发明。

具体地, 包括步骤: 对于待分析的 n种目的核酸片段, 针对每个目的核酸片段, 提 供结合于所述目的核酸片段的不同结合区的至 少 2个特异探针, 所述的各特异探针具有 特异结合区和通用序列区, 并且所述的特异结合区的序列与目的核酸片段 的结合区的序 列互补, 而所述通用序列区的序列对应于测序引物序列 , 其中 n为 40的正整数; 将含 待分析的目的核酸片段的核酸样本与所述探针 杂交, 并连接所述探针, 从而获得探针连 接产物的混合物,其中各探针连接产物的 3'和 5 '端都是序列对应于测序引物序列的通用 序列区; 用所述测序引物, 对探针连接产物的混合物进行测序, 并进行分析, 从而实现 高通量目的基因片段的定量分析。 多重连接探针扩增 (MLPA)

多重连接探针扩增是一种能准确检测目的基因 片段分子数目的技术, 其基本流程包 括探针和靶核酸序列进行杂交,之后通过连接 、 PCR扩增,产物毛细管电泳并收集数据, 分析软件对收集的数据进行分析最后得出结论 。

MLPA探针是一条包括一段引物序列和一段特异 序列的寡核苷酸片段。 在 MLPA 反应中, 这两者都与靶序列进行杂交, 之后使用连接酶连接两部分探针。 连接反应高度 特异, 只有当两个探针与靶序列完全杂交, 即靶序列与探针特异性序列完全互补, 连接 酶才能将两段探针连接成一条完整的核酸单链 ; 反之, 如果靶序列与探针序列不完全互 补, 即使只有一个碱基的差别, 就会导致杂交不完全, 使连接反应无法进行或连接效率 大大下降。

连接反应完成后, 用一对通用引物扩增连接好的探针, 每个探针的扩增产物的长度 都是唯一的, 范围在 100〜480个碱基对, 然后通过毛细管电泳分离扩增产物, 专用软 件分析, 得出结论。

只有当连接反应完成, 才能进行随后的 PCR扩增, 并收集到相应探针的扩增峰, 如 果检测的靶序列发生点突变或缺失、 扩增突变, 那么相应探针的扩增峰便会缺失、 降低 或增加, 因此, 根据扩增峰的改变就可判断靶序列是否有拷贝 数的异常或点突变存在。

多重连接探针扩增技术的优点是探针连接的特 异性很高, 因此在一个体系中能同时 实现多个目的基因片段的分析, 而且连接产物的量与原始模板量之间存在正比 关系, 同 时由于不同基因片段的连接产物采用通用引物 扩增, 因此扩增产物的量很好地保留了原 始模板的量的信息,利用该方法能够通过连接 PCR产物终端分析检测原始模板目的基因 的量。

多重连接探针扩增已经应用于多个领域研究, 包括染色体非整倍体改变, SNP、 点 突变、 染色体亚端粒的基因重排, 以及常见的儿童遗传性疾病的检测。

该方法的不足之处主要在于: 1、 连接产物通常长度不同, 而且采用一对通用 PCR 荧光引物进行扩增,根据荧光标记 PCR产物长度不同采用电泳技术进行不同位点的 扩增 量进行确定, 这样大大限制了一个反应体系检测位点的数量 , 同时只能检测 40〜50个 核苷酸序列, 通量较低; 2、 连接探针序列通常很长(>1001^), 不能直接合成, 只能利用 M13克隆制备, 比较繁琐; 3、 连接探针序列很长, 而且不同位点的连接探针及连接产 物长度差别可达数百个碱基, 这样不同位点间的连接效率及扩增效率都会存 在较大差异 和波动, 从而影响检测准确性。 高通量基因分析方法

本发明提供了一种高通量基因分析方法。 该方法的技术思路如下:

思路 图 1) : 以分析两个目的基因片段 (F1和 F2)为例, 包括下述步骤:

1.针对目的核酸片段设计特异性 DNA探针, 探针的设计有三种可选方法: 第一种方法是针对每一个目的片段设计两个紧 邻探针 (探针 1和探针 2), —个是 5 ' 端探针 (即探针 1), 另一个是 3 '端探针 (即探针 2)。 5 '端探针前半部分序列 (探针 1的 a) 是后续 PCR扩增引物相一致的通用序列,而后半部分 (探针 1的 M)为与目的核酸片段杂 交的特异序列。 3 '端探针的 5'端进行磷酸化修饰, 前半部分 (探针 2的 M)为与目的核酸 片段杂交的特异序列, 后半部分 (探针 2的 a)是后续 PCR扩增引物相一致的通用序列。 这两个探针与模板 DNA杂交后, 在连接酶作用下进行连接。

第二种方法同样设计两个探针 (探针 1和探针 2), 探针的结构同方法一, 但这两个 探针之间有数个至数十个碱基距离 (;该距离可选 l-500bp, 较佳地 l-10bp), 探针与模板 DNA杂交后, 在没有 5 '->3 '外切酶活性的聚合酶作用下延伸, 将两个探针之间的间隙补 上, 并连接酶作用下进行连接。

第三种方法是设计 3对探针 (探针 1、 探针 2和探针 3), 5'端及 3'端探针 (探针 1和 探针 2)的结构同方法一, 但这两个探针之间有数十个至数百个碱基距离 (较佳地

20-25bp), 中间探针 (探针 3)的 5 '端磷酸化, 正好与 5'端及 3 '端探针的间隙匹配, 三个探 针与模板 DNA杂交后在连接酶作用下进行连接。 为了增加连接产物的量, 优选利用高 温耐热聚合酶如 Taq DNA ligase进行变性-复性-连接多次循环。

2. 利用一对与下一代测序平台扩增引物或测序引 物相匹配的 PCR引物, 对连接产 物进行扩增, 获得含有完整特异序列的目的基因片段。

优选地, PCR引物具有一段数个至数十个碱基长度的标签 序列(即 index) , 不同样本 的连接产物可以用带有不同标签序列的 PCR引物进行扩增,这样不同样本的扩增产物可 以混合在一起, 在后续测序数据中根据该标签序列将测序序列 归类到不同样本中去。

3. 连接探针扩增产物利用下一代高通量芯片测序 平台进行单分子扩增测序或直接 单分子测序;

4. 对测序数据进行分析, 实现测序序列的样本归类, 基因位点归类以及各个基因片 段对应连接产物定量。

首先根据标签序列将测序获得的序列归到相应 的样本上, 然后根据每个序列的碱基 组成将其归到相应基因片段的连接产物上, 统计每个连接产物的测序序列数目可以估计 该基因片段连接产物的相对量。 思路 2(图 2) : 以分析两个目的基因片段 (F1和 F2)为例, 包括下述步骤:

1.针对目的核酸片段设计特异性 DNA探针, 探针的设计有三种可选方法: 第一种方法是设计两个紧邻探针 (探针 1和探针 2), 一个是 5 '端探针 (探针 1), 另一 个 3 '端探针 (探针 2)。5 '端探针前半部分序列是与下一代测序平台扩 引物或测序引物相 匹配的通用序列, 而后半部分为与目的核酸片段杂交的特异序列 , 3 '端探针的 5 '端进行 磷酸化修饰, 前半部分为与目的核酸片段杂交的特异序列, 后半部分是与下一代测序平 台扩增引物或测序引物相匹配的通用序列, 5'端探针的 5'末端几个碱基进行硫代修饰或 其它保护基团修饰免受核算外切酶降解, 3'端探针的 3 '末端几个碱基进行硫代修饰或其 它保护基团修饰免受核算外切酶降解, 这两个探针与模板 DNA杂交后在连接酶作用下 进行连接。

第二种方法同样设计两个探针, 探针结构同方法一, 但这两个探针之间有数个至数 十个碱基距离 (该距离可选 l-500bp, 较佳地 l-10bp)), 探针与模板 DNA杂交后, 在没有 5 '->3 '外切酶活性的聚合酶作用下延伸, 将两个探针间隙补上, 然后在连接酶作用下进 行连接。

第三种方法是设计 3对探针, 5 '端及 3 '端探针结构同方法一, 但这两个探针之间有 数十个至数百个碱基距离 (较佳地 20-25bp), 中间探针 5 '端憐酸化, 正好与 5 '端及 3'端 探针的间隙匹配。 通常情况下, 5 '端或 3'端探针会加上一段数个至数十个碱基长度的 签序列, 不同样本的连接产物带不同标签序列, 这样不同样本的连接产物可以混合在一 起, 在后续测序数据中可以根据该标签序列将测序 序列归类到不同样本中去。 三个探针 与模板 DNA杂交后在连接酶作用下进行连接, 为了增加连接产物的量, 可以利用高温 耐热聚合酶如 Taq DNA ligase进行变性-复性-连接多次循环。

2. 连接反应产物用各种核酸外切酶联合作用如核 酸外切酶 ICexonuclease l^核酸外 切酶 III(exonuclease III)及 λ核酸外切酶 (lamda exonuclease)共同消化处理, 将所有非连 接产物的单链或双链 DNA去除后纯化 (去除非连接产物的所有核酸序列, 可不需要连接 产物 PCR扩增的歩骤, 测序结果能够更真实反应连接产物信息)。

3. 非扩增连接产物直接用下一代高通量芯片测序 平台进行单分子扩增测序或直接 单分子测序。

4. 对测序数据进行分析, 实现测序序列的样本归类, 基因位点归类以及各个基因片 段对应连接产物定量: 首先根据标签序列将测序获得的序列归到相应 的样本上, 然后根 据每个序列的碱基组成将其归到相应基因片段 的连接产物上, 统计每个连接产物的测序 序列数目可以估计该基因片段连接产物的相对 量。 引物

如本文所用, 术语 "引物"指的是能与模板互补配对, 在 DNA聚合酶的作用合成与 模板互补的 DNA链的寡聚核苷酸的总称。 引物可以是天然的 RNA、 DNA, 也可以是任 何形式的天然核苷酸, 引物甚至可以是非天然的核苷酸如 LNA或 ZNA等。

引物"大致上 "(或 "基本上")与模板上一条链上的一个特殊的序列 互补。 引物必须与 模板上的一条链充分互补才能开始延伸, 但引物的序列不必与模板的序列完全互补。 比 如, 在一个 3 '端与模板互补的引物的 5 '端加上一段与模板不互补的序列, 这样的引物仍 大致上与模板互补。 只要有足够长的引物能与模板充分的结合, 非完全互补的引物也可 以与模板形成引物-模板复合物, 从而进行扩增。

在本发明中, 引物包括 (但不限于): 简并引物、 测序引物、 接头引物等。 本领域的 普通技术人员可以使用常规方法进行引物的设 计和优化。 高通量测序

基因组的"再测序"使得人类能够尽早地发现与 病相关基因的异常变化, 有助于对 个体疾病的诊断和治疗进行深入的研究。

本领域技术人员通常可以采用三种第二代测序 平台进行高通量测序: 454

FLX(Roche公司)、 Solexa Genome Analyzer(Illumina公司)禾口 Applied Bio systems 公司的 SOLID等。 这些平台共同的特点是极高的测序通量, 相对于传统测序的 96道毛细管测 序, 高通量测序一次实验可以读取 40万到 30亿条序列, 根据平台的不同, 读取长度从 25bp到 450bp不等, 因此不同的测序平台在一次实验中, 可以读取 1G到 300G不等的 碱基数。

Solexa 高通量测序包括 DNA簇形成和上机测序两个步骤: PCR扩增产物的混合物 与固相载体上固定的测序探针进行杂交, 并进行固相桥式 PCR扩增, 形成测序簇; 对所述 测序簇用"边合成 -边测序法"进行测序, 从而得到样本中疾病相关核酸分子的核苷酸序 列。

DNA簇的形成是使用表面连有一层单链引物 (; primer)的测序芯片 (; flow cell),单链状 态的 DNA片段通过接头序列与芯片表面的引物通过碱 基互补配对的原理被固定在芯片 的表面, 通过扩增反应, 固定的单链 DNA变为双链 DNA, 双链再次变性成为单链, 其 一端锚定在测序芯片上, 另一端随机和附近的另一个引物互补从而被锚 定, 形成"桥"; 在测序芯片上同时有上千万个 DNA单分子发生以上的反应; 形成的单链桥, 以周围的 引物为扩增引物, 在扩增芯片的表面再次扩增, 形成双链, 双链经变性成单链, 再次成 为桥,称为下一轮扩增的模板继续扩增;反复 进行了 30轮扩增后,每个单分子得到 1000 倍扩增, 称为单克隆的 DNA簇。

DNA簇在 Solexa测序仪上进行边合成边测序, 测序反应中, 四种碱基分别标记不 同的荧光, 每个碱基末端被保护碱基封闭, 单次反应只能加入一个碱基, 经过扫描, 读 取该次反应的颜色后, 该保护集团被除去, 下一个反应可以继续进行, 如此反复, 即得 到碱基的精确序列。 在 Solexa多重测序 (Multiplexed Sequencing)过程中会使用 Index (;标 签 or barcode)来区分样品, 并在常规测序完成后, 针对 Index部分额外进行 7个循环的 测序, 通过 Index的识别, 可以在 1条测序甬道中区分高达 1000种以上不同的样品。 应用

本发明还提供了所述高通量基因分析方法的应 用。

SNP分型

使用本发明的方法检测 SNP, 每个反应可检测成百上千甚至是成千上万个 SNP位 点。 在一个具体的实施例中, 步骤如下(图 3):

1. 每个 SNP位点优选地设计 3条探针, 2个 5 '端等位基因特异性探针以及 1个 3 ' 端共用探针, 每个等位基因特异性探针的最后一个碱基对应 相应的等位基因碱基, 为了 增加连接的特异性, 在该探针的倒数第 2-4位中的某一处改变碱基引入额外的不匹配增 加连接的特异性;

2. 将所有 SNP位点的连接探针与 DNA模板进行变性-复性-连接, 为了增加连接产 物的量, 可进行多次变性 -复性 -连接循环;

3. 连接产物 PCR进行扩增, 或不扩增直接用核算酶消化纯化, 不同样本的扩增产 物混合后进行下一代高通量芯片测序;

4. 测序数据分析, 根据两个等位基因连接产物的比例进行基因型 判读, 或者在出现 非特异连接情况下, 可取多个样本的两个连接产物数量数据进行聚 类分析 (预计会有 3 个聚集区, 对应三种基因型), 根据聚类结果进行基因型判读。

CNV检测

使用本发明的方法检测 CNV,每个反应可检测成百上千甚至是成千上万 目的基因 片段。 在一个具体的实施例中, 步骤如下 (图 4):

1. 每个反应体系至少包含 1个参照基因片段,参照基因片段是认为在检 物种群体 中不存在拷贝数多态的基因片段, 用于校正不同样本的取样差异;

2. 每个目的基因或参照基因片段优选地设计 2条探针, 1个 5 '端探针以及 1个 3 ' 端探针;

3. 将所有目的基因或参照基因片段的连接探针与 DNA模板变性-复性-连接, 为了 增加连接产物的量, 可进行多次变性 -复性 -连接循环;

4. 连接产物 PCR扩增或不扩增直接用核酸酶消化, 不同样本的扩增产物混合后进 行下一代高通量芯片测序;

5. 测序数据分析:将每个目的基因对应连接产物 的检测数量除以参照基因片段连接 产物的检测数量获得校正值 R如图中 N T1 /N R1 , 然后将该 R值除以参照样本的 R值后获 得校正值 RR, 如果参照基因多于 1个, 则对每个参照基因片段都计算一个 RR值, 然后 取其中位数即为该目的基因的相对拷贝数值, 将该数值乘以参照样本的拷贝数即获得该 样本的目的基因拷贝数如图中 CN T1 。 目的基因突变筛查

使用本发明的方法筛査目的基因突变 (图 5), 在一个具体的实施例中, 步骤如下: 由于连接探针对应 DNA模板如果出现显突变会严重降低连接效率, 针对目的区域设计 高密度平铺探针, 采用 CNV检测的检测步骤与数据分析方法获得每个探 针区域的拷贝 数, 对于拷贝数偏离正常值的探针区域可作为存在 突变位点的候选区域, 该区域可用常 规测序进行验证。 多重候选基因表达水平分析

使用本发明的方法分析多重候选基因表达水平 (图 6), 每个反应可检测成百上千甚 至是成千上万个目的基因的表达水平。 在一个具体的实施例中, 步骤如下: 针对每个基 因可设计多个探针, 可区分不同剪切体的表达比例, 以反转录获得的 cDNA或直接以 RNA为模板进行探针连接,连接产物扩增后进行 进行下一代高通量芯片测序。测序结果 进行分析, 每个基因目的区域的连接产物数量经多个参照 基因校正后可取中位数作为该 基因相对表达水平, 用于不同样本间该基因表达水平的差异分析。 高通量甲基化分析

使用本发明的方法分析甲基化平,每个反应可 检测成百上千甚至是成千上万个 CpG 岛的甲基化水平。 在一个具体的实施例中, 方法如下 (图 7):

一种方法是将基因组 DNA采用甲基化敏感的限制性内切酶进行处理, 针对切点处 设计探针检测未被切断的基因组 DNA量;另一种方法是将基因组 DNA进行亚硫酸盐处 理后, 针对目的基因片段分别设计甲基化特异探针及 非甲基化特异探针, 通过检测两种 探针的连接产物量估计基目的基因区段的甲基 化水平。

探针连接产物进行下一代高通量芯片测序, 获取每个探针连接产物的量。 采用第一 种方法是, 需要选取基因组中存在的全部甲基化或半甲基 化区域作为参照 DNA片段, 同时选取未进行限制性内切酶处理的样本作为 参照样本。 采用第二种方法是, 需要选取 一个参照 DNA样本, 该 DNA样本在所有目标基因区域的甲基化比例已知 , 该样本的制 备可采用全基因扩增产物与甲基化修饰后的全 基因组扩增产物按一定比例混合, 通常为 1 : 1混合获取 50%甲基化比例的参照样本。 病原微生物或转基因动植物鉴定

使用本发明的方法鉴定病原微生物或转基因动 植物, 每个反应可检测成百上千甚至 是成千上万个物种特异基因片段。

针对每种微生物或转入基因设计多个特异探针 , 同时也针对掺入参照基因片段设计 探针。 探针连接产物进行下一代高通量芯片测序。 对于每个探针连接产物量进行掺入参 照基因片段校正后确认检测样本所含的病原微 生物种类以及转基因作物的种类。 本发明的主要优点在于:

(1)一个反应可同时检测成千上万个基因片段信 息, 检测通量提高; 在非专有检测平 台上应用,不需额外设备投入,同时一个检测 反应能够完成成千上万个基因片段的分析, 因此单个基因片段的检测成本大大降低; 针对任意需要检测的目的基因片段能够快速建 立检测体系, 应用灵活:

(2)相对传统的芯片杂交而言, 本发明采用测序进行连接产物的鉴定, 采用数字计数 进行定量, 不存在非特异杂交以及检测背景影响, 因此大大提高准确性;

(3)本发明所有连接产物长度都比较一致,采用 通用引物进行扩增时不同片段之间扩 增效率差异比较小,相对于采用不同长度区分 连接产物的毛细管电泳来说,在该技术中, 扩增产物中各连接产物比例与扩增前的比例更 倾向于一致;

(4)采用连接产物经各种核酸外切酶处理纯化后 直接进行高通量芯片测序, 不经过 PCR扩增, 减少了由于不同连接产物的 PCR扩增效率差异引入的各连接产物彼此相关 比例的偏差;

(5)采用单分子扩增产物测序的序列鉴定以及数 字计数定量方法, 大大提供灵敏度。 下面结合具体实施例, 进一步阐述本发明。 应理解, 这些实施例仅用于说明本发明 而不用于限制本发明的范围。 下列实施例中未注明具体条件的实验方法, 通常按照常规 条件如 Sambrook等人, 分子克隆: 实验室手册 (New York: Cold Spring Harbor Laboratory Press, 1989)中所述的条件, 或按照制造厂商所建议的条件。 实施例 1

检测 48个 SNP位点的分型

针对 48个 SNP位点设计连接探针, 每个位点各设计 3条探针, 2个 5 ' 端等位基因 特异性探针以及 1个 3 ' 端共有序列, 5 ' 端探针的前半部分加接与 mumina二代测序平 台兼容的通用 PCR序列, 而 5, 端探针的后半部分加接与 illumina二代测序平台兼容的 另一通用 PCR序列。 探针在与模板配对良好情况下在 Taq DNA ligase作用下进行连接, 连接产物利用与 illumina二代测序平台兼容通用 PCR引物扩增, 不同样本分别用带有不 同标签序列的通用引物进行扩增, 然后均匀混合纯化后上 Illumina GAIIx测序仪上进行 1x72测序。 Sequencing reads用软件读出后根据标签序列区分不同样本 源, 然后确定每 个 Sequencing read来源与哪个连接产物, 并对每个连接产物进行那个 READS统计。 根 据两个等位基因特异连接产物的 Sequencing reads数目比例进行基因型判读。

实验流程:

样本来自上海瑞金医院常规体检正常个体全血 样本, 全血样本呢采用酚氯仿抽提出

DNA后用 1XTE溶解。

取 100-200ng DNA, 用 ΙχΤΕ稀释到 ΙΟμΙ, 98 °C温浴 5分钟后, 立即冰置;

用 ΙχΤΕ配置探针混合液 (ProbeMix), 每个探针 0.005μΜ;

酉己置 2xLigation Premix, ΙΟμΙ: 2μ1 10*Taq ligase buffer, Ι μΐ 40υ/μ1 Taq Ligase, Ιμΐ ProbeMix, 6μ1 dd¾0;

将 ΙΟμΙ 2xLigation Premix加入到变性后的 ΙΟμΙ DNA样本中, 轻微振荡混匀; 用以下程序进行连接反应: 4x(95 °C 30s, 58 °C 4h), 连接反应结束后立即冰置待用或 将其存放于 -20°C以下备用;

配置 PCR引物混合液 Pmixl、Pmix2及 Pmix3,分别由 NGMPCRF和 NGMPCRR001 , NGMPCRF和 NGMPCRR002, NGMPCRF和 NGMPCRR003组成,各引物浓度均为 2μΜ; 取连接产物 Ιμΐ作为模板进行 PCR反应, 反应体系 20μ1, 包含 2μ1 10x PCR buffer, 2μ1 2.5mM dNTP mix, 2μ1 Pmixl for S I (;或 Pmix2 for S2, 或 Pmix3 for S3), Ι μΐ Ligation product, 0.2μ1 5υ/μ1 Taq DNA polymerase, 12.8μ1 Milli-Q water;其 PCR程序为: 95 °C 5min ; 8x (94 °C 20s, 54 °C 40s, 72 °C lmin); 26x (94 °C 20s, 68 °C 1.5min); hold at 4°C ;

电泳检测扩增效率, 然后根据产物浓度将 3个 PCR产物均匀混合, 电泳分离割胶用

QIAquick Gel Extraction Kit纯化 100bp-150bp之间的片段;

纯化产物 OD定量后估计分子数,然后与其它项目样本混 后根据 TmSeq SR Cluster Kit v2要求进行芯片上的桥式扩增;

扩增产物用 TmSeq SBS Kit v5在 Illumina GAIIX进行 1x72十 7测序, 仪器控制及数 据采集采用 Genome Analyzer Data Collection Software SCS2.8 , 测序选择的 recipe为 GA2-PEM— MP— 72+7Cycle— v<#>;

根据标签序列将测序的读序分到不同样本中, 然后同 expected ligation product libraries对照连接产物库进行比对; 每个读序作为等位基因连接产物进行鉴定, 计算每个 等位基因连接产物的数目; 根据每个位点两个连接产物测序读序数目比例 以及不同样本的比例分布来确定该位 点基因型: 如果连接特异性很强, 某个 allele连接产物是另外一个的 10倍以上或 1/10以 下, 通常可直接判定为优势 Allele的纯合子, 如果不是可在多个样本中进行比较看是否 存在聚类现象 (如分成 3类, 即对应 3种基因型)。

本实施例中使用的通用引物序列如下:

NGMPC F(SEQ ID NO: 1)

AATGATACGGC GACC AC (

NGMPCRR001 (SEQ ID NO: 2)

C AAGC AGAAGAC GGC ATAC G

NGMPC R002 (SEQ ID NO: 3)

CAAGCAGAAGACGGCATACC

NGMPCRR003(SEQ ID NO: 4)

三个样本 SNP位点和 genotype calling (基因型判读)测序深度结果见表 1。

¾ J

测序深度 .― 测序深度 基因型判读

SI S2 S3 SI S2 S3 SI S2 S3 rsl056893 C 1053 95 719 T 1601 2418 910 C/T T/T C/T rsl058588 C 2809 2351 1276 T 2488 1774 1657 C/T C/T C/T rsl0790286 C 3544 1 16 107 T 3029 4902 3487 C/T T/T T/T rsl0791649 A 2757 3999 2622 G 1777 61 80 G/A A/A A/A rslll07 A 342 501 493 G 513 661 77 G/A G/A A/A rslll55787 C 1329 2024 1295 T 72 111 153 C/C C/C C/C rslll61732 A 53 74 1 13 G 830 1235 789 G/G G/G G/G rsl249950 C 766 2269 615 T 555 57 1151 C/T C/C T/T rsl2719860 A 41 67 57 C 1546 1353 968 C/C C/C C/C rsl359185 A 739 999 275 G 1279 56 760 G/A A/A G/A rsl572983 C 1 1 10 1070 70 T 773 697 1071 C/T C/T T/T rs2161916 A 4123 3691 4943 G 3849 3430 37 G/A G/A A/A rs2231926 A 628 2370 791 G 4190 3021 3562 G/G G/A G/G rs2241280 A 2039 1005 779 G 69 545 484 A/A G/A G/A rs2241571 C 576 48 1229 T 492 1810 55 C/T T/T C/C rs2241802 A 2883 1459 837 G 57 1946 1604 A/A G/A G/A rs2279072 C 3201 2501 889 T 26 37 855 C/C C/C C/T rs2294092 C 853 713 865 G 48 805 47 C/C G/C C/C rs2297129 A 5469 2207 1518 G 96 3210 2008 A/A G/A G/A rs2304035 A 53 91 76 G 3656 3504 2796 G/G G/G G/G rs2304102 A 4487 247 2495 G 87 3188 75 A/A G/G A/A rs2305150 C 338 67 683 T 341 872 34 C/T T/T C/C rs2306331 c 404 1078 91 T 505 85 696 C/T C/C T/T rs2401751 A 50 845 459 G 1429 1098 579 G/G G/A G/A rs2779500 C 526 895 599 G 642 1222 941 G/C G/C G/C rs2986014 c 85 3342 1 192 T 1808 34 35 T/T C/C C/C rs3182535 A 421 1298 464 G 439 24 403 G/A A/A G/A rs3731631 A 935 739 494 G 1086 864 623 G/A G/A G/A rs3736582 C 4746 1793 1323 G 105 1579 720 C/C G/C G/C rs3749877 A 1604 129 139 G 1866 2590 2046 G/A G/G G/G rs3809806 C 1281 3188 3706 T 1315 1874 139 C/T C/T C/C rs3816800 C 717 1697 777 G 699 54 788 G/C C/C G/C rs4141253 C 977 1352 834 T 453 669 454 C/T C/T C/T rs4362 C 407 411 3712 T 3977 3523 208 T/T T/T C/C rs4371677 A 3092 1268 70 G 41 1553 1931 A/A G/A G/G rs469783 C 1568 2489 985 T 1806 41 1108 C/T C/C C/T rs4829830 A 691 63 74 C 258 1352 971 A/A C/C C/C rs4920098 C 3071 5527 1874 T 1598 51 911 C/T C/C C/T rs624821 A 841 1515 1621 T 774 1262 48 A/T A/T A/A rs625372 C 1216 1095 1546 T 43 767 85 C/C C/T C/C rs639225 A 889 566 66 G 871 527 752 G/A G/A G/G rs6784322 A 70 894 1 170 T 1021 804 37 T/T A/T A/A rs6892205 A 660 454 384 G 36 509 387 A/A G/A G/A rs894344 A 410 1252 41 G 667 27 1102 G/A A/A G/G rs934472 A 53 60 2641 C 2398 4161 55 C/C C/C A/A rs938883 C 160 1319 84 T 1999 883 1155 T/T C/T T/T rs9389034 C 753 59 31 T 697 1827 1115 C/T T/T T/T rs9791113 C 68 835 561 G 3144 1429 1159 G/G G/C G/C 结果表明: 通过与前期测序结果比对, 除了 rs2231926, 所有其他 47个 SNP位点在 3个样本都得到准确分型。 位点 rs2231926分型有误主要是因为 G特异探针发生了非特 异连接, 但如果更多的样本进行分型, 这种分型错误可以通过两种等位基因连接产物 量 的簇化分析得到避免。 实施例 2

检测 DMD基因外显子缺失重复

基本原理如图 4所示, 每个样本设计 141个探针, 其中 129个分布于 DMD基因 79 个外显子上, 6个参照基因探针, 6个性染色体性别鉴定探针 (3个位于 X染色体, 3个位 于 Y染色体)。 每个位点各设计 2条探针, 1个 5 '端探针以及 1个 3 '端探针, 5'端探针前 半部分序列是后续 PCR扩增引物相一致的通用序列, 而后半部分为与目的核酸片段杂交 的特异序列, 3'端探针的 5'端进行磷酸化修饰, 前半部分为与目的核酸片段杂交的特异 序列, 后半部分是后续 PCR扩增引物相一致的通用序列。 探针在与模板配对良好情况下 在 Taq DNA连接酶作用下进行连接, 连接产物利用与 Illumina二代测序平台兼容的通用 PCR引物扩增。 不同样本分别用带有不同标签序列的通用引物 进行扩增, 然后均匀混合 纯化后上 Illumina GAIIx测序仪上进行 1x72+7测序。 测序数据进行后续分析。

样本准备: 2个假肥大型肌营养不良症患者 (Pl, P2), 1个女性携带者 (P3)及 1个正 常样本 (P4) 各抽取 2ml全血, 用传统酚氯仿方法抽提全血 DNA用于后续实验。

本实施例使用的通用引物 NGMPCRF、 NGMPCRROO NGMPCRR002禾口

NGMPCRR003同实施例 1 , NGMPCRR004序列如下(SEQ ID NO: 5):

AATTAG为用 Ilhmiina二代测序仪测序时采用的标签序列,用 区分不同样本的测序数 据。

实验流程: 取 100-200ng DNA, 用 ΙχΤΕ稀释到 10μ1, 98 °C温浴 5分钟后, 立即冰 置; 用 ΙχΤΕ配置探针混合液 (ProbeMix), 每个探针 0.005μΜ; 配置 2xLigation Premix, ΙΟμΙ: 2μ1 10*Taq ligase buffer, Ιμΐ 40υ/μ1 Taq DNA连接酶, Ι μΐ ProbeMix, 6μ1无菌水; 将 ΙΟμΙ 2xLigation Premix加入到变性后的 ΙΟμΙ DNA样本中,轻微振荡混匀; 用以下程序进 行连接反应: 4 X (95 °C 30s, 58 °C 4h), 连接反应结束后立即冰置待用或将其存放于 -20 V以下备用; 配置 PCR引物混合液 Pmixl, Pmix2 , Pmix3及 Pmix4, 分别由 NGMPCRF 禾口 NGMPCRROOl、 NGMPCRF和 NGMPCRR002、 NGMPCRF和 NGMPCRR00、 NGMPCRF 和 NGMPCRR004组成,各引物浓度均为 2μΜ;取连接产物 Ιμΐ作为模板进行 PCR反应, 反应体系 20 μΐ,包含 2μ1 10x PCR buffer, 2μ1 2.5mM dNTP mix, 2μ1 Pmixl for PI (或 Pmix2 for P2, Pmix3 for P3, Pmix4 for P4), Ι μΐ 连接产物, 0.2μ1 5υ/μ1 Taq DNA polymerase, 12.8μ1 无菌水; 其 PCR程序为: 95 °C 5min ; 8x (94 °C 20s, 54°C 40s, 72 °C lmin); 26x (94 °C 20s, 68 °C 1.5min); hold at 4°C ; 2% 琼脂糖电泳检测扩增效率, 然后根据产 物浓度将 4个 PCR产物均匀混合, 电泳分离割胶用 QIAquick Gel Extraction Kit纯化

100bp-150bp之间的片段; 纯化产物 OD定量后估计分子数, 然后与其它项目样本混和后 根据 TruSeq S Cluster Kit v2要求进行芯片上的桥式扩增;扩增产物用 TmSeq SBS Kit v5 在 IUumina GAIIX进行 1x72+7测序, 仪器控制及数据采集采用 Genome Analyzer Data Collection Software SCS2.8 , 测序选择的 recipe为 GA2-PEM— MP— 72+7Cycle— v<#>;测序 序列用软件读出后根据标签序列区分不同样本 来源, 然后确定每个测序序列来源于哪个 连接产物, 并对每个连接产物进行测序深度统计。 将每个目的基因对应连接产物的检测 数量分别除以参照基因片段连接产物的检测数 量获得第一个校正值 (R),然后将该 R值除 以参照样本的 R值, 获得第二个校正值 (RR), 对每个参照基因片段都计算一个 RR值, 总共有 6个 RR值, 然后取其中位数, 由于参照样本为正常男性个体, DMD基因及 X, Y染色体上的基因片段的拷贝数均为 1, 这样该中位数即为检测样本对应基因片段的拷 贝数。

结果: 4个样本每个目标基因片段连接产物的测序深 及拷贝数检测结果见表 2。 表 2

探针连接产 序深度

各探针结合区检测拷贝数 物名称 PI P I P3 P4

REF18p 1993 1 152 868 1724 1 1 / EF3p 2686 1591 1279 2338 1 1 1

REF5q 997 587 458 842 1 1 1

REF8q 1020 582 482 927 1 1 1

DMD— EOIA 682 474 708 624 0.948 1.127 2.134

DMD EOIB 400 199 329 319 1.088 0.925 1.94

DMD E02A 584 361 647 551 0.92 0.972 2.209

DMD E02B 662 381 635 528 1.088 1.07 2.262

DMD— E02C 816 509 716 685 1.034 1.102 1.966

DMD— E03A 1036 563 947 888 1.012 0.94 2.006

DMD E03B 460 341 372 391 1.021 1.293 1.789

DMD E04A 1214 736 1022 1 150 0.916 0.949 1.671

DMD E04B 927 528 805 755 1.065 1.037 2.005

DMD— E05A 920 514 815 866 0.922 0.88 1.77

DMD E05B 622 384 536 569 0.949 1.001 1.772

DMD E06A 1 188 727 1032 1026 1.005 1.051 1.892

DMD E06B 1014 636 969 875 1.006 1.078 2.083

DMD— E07A 1 1 19 739 1017 1056 0.92 1.038 1.81 1

DMD E07B 566 359 544 486 1.011 1.095 2.105

DMD E08A 1754 1091 1663 1561 0.975 1.037 2.004

DMD E08B 577 322 502 495 1.011 0.965 1.907

DMD— E09A 830 456 824 732 0.984 0.924 2.117

DMD E09B 1394 800 1366 1282 0.944 0.925 2.004

DMD EIOA 1009 608 855 822 1.065 1.097 1.956

DMD El OB 869 516 845 773 0.975 0.99 2.056

DMD— Ell A 1799 995 1618 151 1 1.033 0.977 2.014

DMD E11B 769 434 721 720 0.927 0.894 1.883

DMD E12A 955 524 917 805 1.029 0.965 2.143

DMD E12B 334 194 255 225 1.288 1.279 2.132

DMD— E13A 853 488 720 674 1.098 1.074 2.009

DMD E13B 976 621 939 860 0.985 1.071 2.054

DMD E14A 1668 1000 1625 1365 1.06 1.086 2.239

DMD E14B 890 505 813 753 1.026 0.995 2.031

DMD— E15A 848 470 816 739 0.996 0.943 2.077

DMD E15B 555 348 570 541 0.89 0.954 1.982

DMD E16A 680 426 677 604 0.977 1.046 2.108 OliAV Ss9s.

vilal

vssal

VI -8ΐ-

LW\ 16.0 6/.0Ί 099 8" sot? ΪΖ8 VT93 ama

ςιοτ 9/.6Ό 9ZL 108 668 V093— ama

ίΙΖ'Ζ Μ)6·0 96Ό £Vll L69 99ΖΙ V6S3 ama

LPVZ ΑΟΟ'ΐ 8εοτ 0t76 £LOl 8£9 ντ\\ V8S3 ama

^ΡΟ'Ζ 86.0 8^6'0 8 8 9S6 08S 8厶 S3— ama

808'ΐ Ζ90Ί 1796Ό 880ΐ 9Ι70Ϊ 6LL 6οπ ν厶 sa— ama

ΡΟΟ'Ζ 550'ΐ 89ΐ'Γ ΐ^9 £89 99^ £98 a9sa" ama

Α86'ΐ 8176Ό Γ86Ό t709 8£9 98£ £89 V9sa ama

%LYZ 86·0 ςς&ο ινιι ΙΖ£1 6 9ςζι assa ama

ςβ ι 6·0 £ΐ6Ό 9ΖΖ\ OLII ?08 06Π vssa ama

61 Ζ "0·ΐ ^Ο'Γ ίίΖΙ ζοςι 06 ζιςι ama

IWZ 996Ό Ζ 6·0 ί6Ρ ςίς τζε vt-sa ama

?86'ΐ όεο'ΐ 9ΜΠ ξ9ΖΙ ξ££1 988 ςζςι ama

Ρ96Ί εςο'ΐ ΖΡΟΊ £66 LZ01 Z6W acsa ama

69 Ι ΡΖ6Ό εο'ΐ L££ ί\£ οιζ OOt' vesa ama

80Ϊ 5Τ6Ό £6Ό iOt' i] οςζ ama

Γ9Α'ΐ Ζ68Ό "6·0 9S6 568 ζΐς azsa ama

896'ΐ 6.0 ξ6ΖΙ ξξ£ϊ i vzsa ama

Ρ16Ί 600·ΐ 8Α6Ό 098 ?Α8 696 3isa" ama

8·ΐ ΖΖ6Ό ςιιι 89ΐΐ t'iL 6VZI axsa ama

1700 ςΐθ'ΐ L9&0 IL9 ςιι 1LV % L visa ama

610'Τ £96.0 ΖΟΟΊ PPL LZV £8^ 6S8 Dosa" ama

680'ΐ ί£6Ό Ζ66Ό \9ΡΙ 9^8 £Ζ6 0/.9Ϊ aosa" ama

επ ΐ 9L6O L9£l 85λ ΖΖ6 ίίςι vosa ama

8£6'ΐ ΐ7ΐ7θ'ΐ £20' Γ ΖΖ6 056 6V9 801 ama

908"ΐ ΐ^6"0 96"0 9ΖΖ\ LL %LL ιςπ ama

986'ΐ Ι6Ό 89ΐ'ΐ εοε ΟΖί 98ΐ 8017 ama

£9VZ ΐ 86Ό ^89ΐ L£6l 9£ΐΐ Ζ06ΐ ama

ειο 986Ό 9Ϊ0Ί 9Ζ8 1788 L96 Ύ8ΡΆ ama

ΐ 8ςΐ·Ι 19 9ος πε ξ\9 ama

ξ9 Ζ Τ'ΐ ίΖΠ 168 iLOl 199 £ξΙΙ ama

9LL'\ 896Ό 6£ΐ'Γ ΡΡΙ 9ίΙ 176 68 ΐ ama

Γ98'ΐ LO'l 686Ό ILL 9L 088 ama

8Γ6'ΐ 8?6Ό LZO'l 6^ε 99ε Ζ£Ζ Ύ9ΡΆ ama

£88'ΐ "0·ΐ ΖΖΟΊ 9 8 ΐί7θΐ ama

VL6'\ 990'ΐ LSO'l ο?οΐ ZOU ςςί 6ΑΖΪ ama

ZL6'\ £86Ό ΙΖΟΊ 0£6 88S ama

ΐ758'ΐ ςςνι ΙξΟΊ 80Ζ ςοζ Ζ91 ζςζ 3ΡΡΆ ama

LOT £ΐ'ΐ ίΡ6Ό 86Ζ LZZ ama

ICT680/C10ZN3/X3d SS9丽 0Z OAV DMD E61B 457 230 452 355 1.1 17 0.961 2.395

DMD E62A 825 507 778 706 1.014 1.065 2.073

DMD E63A 978 1044 836 803 1.057 1.928 1.958

DMD E64A 820 1044 775 719 0.99 2.153 2.027

DMD E65A 944 1 199 988 915 0.895 1.943 2.031

DMD E66A 1376 1615 1303 1235 0.967 1.939 1.984

DMD _E67A 1079 1257 847 938 0.998 1.987 1.698

DMD E68A 406 257 348 359 0.981 1.062 1.823

DMD E69A 1269 711 1059 1046 1.053 1.008 1.904

DMD — E70A 912 470 794 757 1.045 0.921 1.973

DMD — E71A 645 359 579 526 1.064 1.012 2.07

DMD — E72A 724 458 662 572 1.098 1.187 2.177

DMD — E73A 746 450 723 649 0.997 1.028 2.095

DMD — E74A 768 434 668 662 1.007 0.972 1.898

DMD — E75A 1287 747 1202 1 1 12 1.004 0.996 2.033

DMD — E76A 1289 820 1214 1092 1.024 1.1 14 2.091

DMD _E77A 586 369 524 488 1.042 1.121 2.02

DMD — E78A 1387 751 1304 1276 0.943 0.873 1.922

DMD — E79A 252 146 219 208 1.051 1.041 1.98

ChrX A 528 337 510 476 0.963 1.05 2.015

ChrX B 774 424 647 627 1.071 1.003 1.941

ChrX C 645 373 548 560 0.999 0.988 1.841

ChrY_A 1229 748 0 983 1.085 1.128 0

ChrY— B 737 421 0 601 1.064 1.039 0

ChrY C 1426 896 0 1303 0.95 1.02 0 检测结果见图 8 :图 8.1为 DMD基因 18-41外显子缺失的男性个体;图 8.2为 DMD 基因 63-67外显子重复的男性个体; 图 8.3为 DMD基因 50外显子缺失携带者的女性个 体。 在本发明提及的所有文献都在本申请中引用作 为参考,就如同每一篇文献被单独引 用作为参考那样。 此外应理解, 在阅读了本发明的上述讲授内容之后, 本领域技术人员 可以对本发明作各种改动或修改, 这些等价形式同样落于本申请所附权利要求书 所限定 的范围。