Login| Sign Up| Help| Contact|

Patent Searching and Data


Title:
SUPER CHIP, PREPARATION METHOD AND APPLICATION THEREOF
Document Type and Number:
WIPO Patent Application WO/2013/053180
Kind Code:
A1
Abstract:
The present invention relates to a kind of super chip, preparation method and application thereof. Specifically, the super chip comprises exon detection area, Tag-SNP detection area, HLA detection area and pathogenic gene of Mendelian monogenic disease detection area. The super chip can detect up to 300 or more kinds of diseases in a short time, and compared with the existing chips, it has high disease coverage, and greatly improves the capture area, and significantly reduces the cost of testing. The invention also provides Tag-SNP screening method, and a preparation method and application of the super chip.

Inventors:
CAO HONGZHI (CN)
CHEN SHENGPEI (CN)
JIANG HUI (CN)
SUN JING (CN)
WANG JUN (CN)
WANG JIAN (CN)
YANG HUANMING (CN)
Application Number:
PCT/CN2011/084329
Publication Date:
April 18, 2013
Filing Date:
December 21, 2011
Export Citation:
Click for automatic bibliography generation   Help
Assignee:
BGI SHENZHEN CO LTD (CN)
BGI SHENZHEN (CN)
CAO HONGZHI (CN)
CHEN SHENGPEI (CN)
JIANG HUI (CN)
SUN JING (CN)
WANG JUN (CN)
WANG JIAN (CN)
YANG HUANMING (CN)
International Classes:
C12Q1/68
Other References:
"BGI, BGI: breakthrough technology on human genetic and diseases, and Allinone is expected to accelerate the conversion of the application.", 8 December 2011 (2011-12-08), Retrieved from the Internet
JIANG, TAO ET AL.: "High-performance single-chip exon capture allows accurate whole exome sequencing using the Illumina Genome Analyzer", SCIENCE CHINA, vol. 41, no. 9, September 2011 (2011-09-01), pages 714 - 721
DIVNE, A.M. ET AL.: "A DNA microarray system for forensic SNP analysis.", FORENSIC SCIENCE INTERNATIONAL, vol. 154, 2 December 2004 (2004-12-02), pages 111 - 121
FANG, ZHEXIANG: "TagSNP Prediction Method Using Linkage Disequilibrium Criteria", CHINA MASTER'S THESES FULL-TEXT DATABASE, no. 5, 15 May 2009 (2009-05-15)
HAN, B. ET AL.: "Efficient Association Study Design via Power-optimized Tag SNP Selection.", ANN HUM GENET., vol. 72, 13 August 2008 (2008-08-13), pages 834 - 847
Attorney, Agent or Firm:
XU & PARTNERS, LLC. (CN)
上海一平知识产权代理有限公司 (CN)
Download PDF:
Claims:
权 利 要 求

1.一种超级芯片, 其特征在于, 所述超级芯片包括核酸检测区, 各核酸检测 区包括多个检测点,各检测点固定有用于与待检测核酸杂交的寡核苷酸探针,所述 的检测区包括:

外显子检测区;

(b) Tag-SNP检测区; 和

(c)白细胞抗原检测区;

优选地, 所述芯片具有固相载体, 更优选地, 所述的固相载体为基片或微球, 更优选地, 所述的固相载体为荧光微球, 最优选地, 为聚苯乙烯微球;

或优选地, 所述芯片为包括探针组合物的液相芯片。

2. 如权利要求 1所述的超级芯片, 其特征在于, 所述检测区还包括: (d) 单基 因病检测区;

较佳地, 所述的单基因病选自下组: 3β-羟类固醇脱氢酶缺陷症; 3-甲基巴 豆酰辅酶 Α羧化酶缺乏症; 3-羟酰辅酶 A脱氢酶缺乏症; Alagille 综合症 (先天性 胆道闭锁综合症); Alport综合征 (遗传性肾炎); Apert 综合征; Arts综合征; Diamond-Blackfan贫血(先天性纯红细胞再生障碍性贫血); Emery-Dreifuss型肌 营养不良; Friedreich共济失调; Gilbert 综合症; Jackson- Weiss颅缝早闭综合 征; Joubert综合症; Marshall综合症; Meckel综合征; Pallister-Hall综合征; QT 间期延长综合征; Waardenburg综合征; Weissenbacher-Zweymuller综合征; Wolfram综合征 1型; X连锁铁粒幼细胞贫血; 红细胞生成性原卟啉症; 先天性 角化不全症; X连锁型鱼鳞病; X连锁性视网膜色素变性 3型; X连锁隐性耳聋; X连锁重症联合免疫缺陷; β地中海贫血; 氨甲酰磷酸合成酶缺乏症; 巴特综合 征; 半胱氨酸尿症; 半乳糖血症; 丙二酰辅酶 Α脱羧酶缺乏症; 丙酸血症; 丙 酮酸羧化酶缺乏症; 丙酮酸脱氢酶复合物 E3结合蛋白缺乏症; 丙酮酸脱氢酶磷 酸酶缺乏症; 丙酮酸脱羧酶缺乏症; 长链酰基辅酶 A脱氢酶缺陷症; 常染色体 显性非综合征型耳聋; 常染色体显性营养不良性大疱性表皮松解; 常染色体隐 性多囊性肾病;常染色体隐性非综合征型耳聋;成骨不全;丑胎 (丑角样鱼鳞病); 板层性鱼鳞病; 单纯性三角头畸形; 短链羟酰基辅酶 A脱氢酶缺乏症; 短链酰 基辅酶 A脱氢酶缺乏症; 多巴反应性肌张力障碍 (张力障碍); 多发性内分泌腺瘤 病; 多种酰基辅酶 A脱氢酶缺乏症; 苯丙酮尿症; 法布瑞氏症; 范可尼贫血; 非酮症性高甘氨酸血症; 腓骨肌萎缩症; 枫糖尿病 (支链酮酸尿症); 肝豆状核 变性; 高脯氨酸血症 II型; 高脯氨酸血症 I型; 高甲硫氨酸血症; 高鸟氨酸血症; 各型鱼鳞病; 共济失调伴选择性维生素 E缺乏症; 共济失调性毛细血管扩张症; 骨硬化症; 瓜胺酸血症; 赫尔勒综合征 (粘多糖贮积病 1H型); 黑斑息肉综合征; 活化蛋白 C抵抗引起的易栓症; 肌 -眼-脑病; 极长链酰基辅酶 A脱氢酶缺乏症; 脊髓性肌萎缩 (脊肌萎缩症, SMA); 家族性腺瘤性息肉病; 甲基丙二酸血症; 假性软骨发育不全; 渐冻人症; 交界型大疱性表皮松解症,赫利茨型; 角化症掌 跖病纹状体; 结节性硬化病; 进行性肌阵挛性癫痫; 进行性家族性肝内胆汁瘀 积; 进行性假肥大性肌营养不良症; 精氨酸琥珀酸尿症; 精氨酸酶缺乏症; 胫 骨肌营养不良症; 局灶性节段性肾小球硬化症; 克拉伯病; 酪氨酸羟化酶缺乏 症 (Segawa 综合征); 酪氨酸血症; 硫解酶缺乏症; 马凡综合症; 囊性纤维化; 尼曼-皮克病; 尼曼-皮克病 (磷脂贮积症); 年龄相关性黄斑变性; 胼胝体发育不 全及周围神经病变; 葡萄糖 -6-磷酸脱氢酶缺乏症; 强直性肌营养不良 1型; 肉 毒碱棕榈酰转移酶 I缺乏症; II缺乏症; 肉碱棕榈酰转移酶 II缺乏症; 肉碱棕榈 酰转移酶 I缺乏症; 沙勒沃伊-萨格奈常染色体隐性遗传痉挛性共济失调; 神经 节苷脂贮积症; 神经纤维瘤病; 神经元蜡样质脂褐质沉积症 1型; 肾病型胱胺 酸症; 史蒂克勒氏综合征; 视网膜色素变性; 舒-戴二氏综合症; 双氢嘧啶脱氢 酶缺乏症; 糖原累积病; 特雷彻-柯林斯综合征; 天冬氨酰葡萄糖胺尿症; 同型 半胱氨酸尿症; 同型瓜氨酸尿症综合症; 透克氏症; 瓦登伯格综合征; 戊二酸 血症 I型; 先天性纯巨核细胞再障血小板减少症; 先天性胆汁淤积; 先天性耳聋 伴甲状腺肿大 (Pendred综合征); 先天性肌强直; 先天性肌弛缓; 先天性甲状腺 功能减退症; 先天性软骨发育不全; 先天性视网膜劈裂症; 先天性糖蛋白糖基 化缺陷 la型; 显性多发性骨骺发育异常 (MED) ; 小儿异染性脑白质营养不良; 新生儿永久性糖尿病; 新生儿致命的软骨发育不良; 新生儿重症脑病; 血友病; 牙本质发育不全; 延森氏综合征; Mohr-Tranebjaerg综合征; 眼白化病; 遗传性 X连锁性痉挛性截瘫; 遗传性多发性外生骨疣; 软骨肉瘤; 遗传性非息肉病性 结直肠癌 (Lynch 综合征); 遗传性非息肉性结直肠癌 2型; 遗传性共济失调性多 发性神经炎样病 (Refsum综合征); 遗传性果糖不耐症; 遗传性家族性颅面骨发 育不全; 遗传性酪氨酸血症 1型; 遗传性乳腺癌; 遗传性显性痉挛性截瘫; 遗 传性眼球萎缩病; 遗传性隐性痉挛性截瘫; 异戊酸血症; 隐性多发性骨骺发育 异常 (MED) ; 尤塞氏综合症; 有汗型外胚层发育不良; 幼婴癫痫性脑病; 原发 性高草酸盐尿症 2型; 早年衰老综合症; 扩张型心肌病 1A型; 肢带型肌营养不 良症; 粘多糖贮积症 II型; 掌跖角化病 (掌跖硬化病); 肢带型进行性肌肉萎缩 症; 中链酰基辅酶 A脱氢酶缺乏症; 侏儒 -面部毛细血管扩张综合征 (布卢姆综合 征); 综合征型耳聋; 组氨酸血症; 家族性腺瘤样息肉病; 软骨发育不良; 家族 性高胆固醇血症; 多指畸形; 马凡综合症; 遗传性舞蹈病; 秃发; 胱氨酸尿症; 遗传性高度近视; 抗 D佝偻病; 血友病; 节性脑硬化综合症; 杜氏肌营养不良; 进行性肌营养不良; 多囊肾综合症; 性别决定基因突变所致的性反转, 或其组 合。

3. 如权利要求 1所述的超级芯片, 其特征在于, 所述外显子检测区覆盖 20- 100M大小的基因组区域;

较佳地,所述外显子检测区覆盖 35M-70M大小的基因组区域,更佳地覆盖 45M 大小的基因组区域;

优选地, 所述检测区的探针特异性地针对人或非人哺乳动物的核苷酸序列。

4. 如权利要求 1所述的超级芯片, 其特征在于, 所述的 Tag-SNP检测区用于检 测在个人基因组中存在的 SNP;

较佳地,所述的用于检测 Tag-SNP的寡核苷酸探针是对泛基因组的 SNP进行聚 类并挑选 Tag-SNP而获得的。

5. 如权利要求 4所述的超级芯片, 其特征在于, Tag-SNP的寡核苷酸探针包括 序列如 SEQ ID NO.l-SEQ ID NO.10任一所示的探针。

6. 权利要求 1所述超级芯片的用途, 其特征在于,所述超级芯片用于获取人基 因组的核苷酸序列信息;

较佳地, 所述的核苷酸序列信息包括 SNP信息。

7. 一种超级芯片的制备方法, 其特征在于, 包括步骤:

将寡核苷酸探针组成包括多个检测点的检测区, 所述检测区包括:

(al)外显子检测区; (bl)Tag-SNP检测区; 和

(cl)白细胞抗原检测区;

较佳地, 所述检测区还包括: (dl) 单基因病检测区;

优选地, 所述芯片具有固相载体, 更优选地, 所述固相载体为基片或微球, 更优选地, 所述固相载体为荧光微球, 最优选地, 为聚苯乙烯微球;

或更佳地, 所述芯片为包括探针组合物的液相芯片。

8. 如权利要求 7所述的方法,其特征在于, 所述方法还包括位于在点样之前的 以下步骤:

(i)从数据库中过滤筛选 SNP, 获得初始 SNP数据集;

(ii)从初始 SNP数据集中选择标签 SNP(Tag-SNP);

(iii)合成针对标签 SNP的寡核苷酸。

9. 如权利要求 8所述的方法, 其特征在于, 步骤 (i)中的初始 SNP满足下述条 件:

• 在数据库所选人群中多态性碱基型为二种的位点;

· 在数据库所选人群中, 数据缺失率 <0.1的位点;

• 等位基因碱基型出现次数大于一次的位点。

10. 如权利要求 8所述的制备方法, 其特征在于, 步骤 (ii)中的 Tag-SNP包括: 标准的 Tag-SNP部分; 和 Y染色体 Tag-SNP部分;

较佳地, 标准的 Tag-SNP是通过最优聚类, 根据连锁不平衡数据, 将群体多 态位点聚类并挑选获得的。

11. 一种筛选标签 SNP(Tag-SNP)的方法, 其特征在于, 包括步骤:

(A) 从数据库中过滤筛选 SNP, 获得初始 SNP数据集;

(B) 从初始 SNP数据集中, 通过最优聚类, 根据连锁不平衡数据, 将群体 多态位点聚类获得, 从而选出标签 SNP。

12. 一种试剂盒, 其特征在于, 包括一容器以及位于所述容器内的权利要 求 1所述的超级芯片;

较佳地, 试剂盒还包括任选自下组的试剂: 测序用引物; PCR反应试剂及 纯化试剂; 测序芯片; 或其组合。

Description:
一种超级芯片及其制备方法和应用

技术领域

本发明涉及生物技术领域, 具体地, 本发明涉及一种超级芯片及其制备方 法和应用。 背景技术

全基因组测序是对已知基因组序列的物种进行 不同个体的基因组测序, 并 在此基础上对个体或群体进行差异性分析。 一般来讲, 全基因组测序包括以下 步骤: 提取基因组 DNA, 随机打断, 电泳回收所需长度的 DNA片段 (0.2-5Kb), 加接头, 进行基因簇制备或电子扩增, 对片段进行测序, 通过生物信息手段, 分 析不同个体基因组间的结构差异, 完成 SNP或基因组结构性变异查找和注释。

全基因组测序虽然在最近几年内的价格大幅下 降, 但其作为大规模的检测 变异的方法, 价格仍然不菲。 外显子重测序渐渐成为一种检验和疾病相关的 基 因的标准工具,但现有的芯片覆盖的基因组的 范围较小,很多区域无法捕获到, 致使和疾病相关的一些基因无法通过外显子测 序研究。

目前本领域内尚缺乏能检测多种疾病的芯片及 其制备方法, 因此严重阻碍 了疾病的筛选和诊断。 因此本领域迫切需要开发针对多种疾病检测和 诊断的芯 片及其制备方法。 发明内容

本发明的目的是提供一种超级芯片及其应用。

本发明的另一目的是提供一种超级芯片的制备 方法。 在本发明的第一方面,提供了一种超级芯片, 所述超级芯片包括核酸检测区, 各核酸检测区包括多个检测点,各检测点固定 有用于与待检测核酸杂交的寡核苷酸 探针, 所述的检测区包括:

(a)外显子检测区; (b)Tag-SNP检测区; 和 (c)白细胞抗原检测区。

在另一优选例中, 所述芯片具有固相载体, 较佳地, 所述的固相载体为基片 或微球, 更佳地, 所述的固相载体为荧光微球, 最佳地为聚苯乙烯微球。

在另一优选例中, 所述芯片为: 包括探针组合物的液相芯片。

在另一优选例中, 所述检测区还包括: (d) 单基因病检测区。

在另一优选例中, 所述的单基因病选自下组: 3β-羟类固醇脱氢酶缺陷症; 3-甲基巴豆酰辅酶 Α羧化酶缺乏症; 3-羟酰辅酶 A脱氢酶缺乏症; Alagille 综合 症 (先天性胆道闭锁综合症); Alport综合征 (遗传性肾炎); Apert 综合征; Arts 综合征; Diamond-Blackfan贫血(先天性纯红细胞再生障碍 贫血); Emery-Dreifuss型肌营养不良; Friedreich共济失调; Gilbert 综合症; Jackson- Weiss颅缝早闭综合征; Joubert综合症; Marshall综合症; Meckel综合 征; Pallister-Hall综合征; QT间期延长综合征; Waardenburg综合征; Weissenbacher-Zweymuller综合征; Wolfram综合征 1型; X连锁铁粒幼细胞贫血; 红细胞生成性原卟啉症; 先天性角化不全症; X连锁型鱼鳞病; X连锁性视网膜 色素变性 3型; X连锁隐性耳聋; X连锁重症联合免疫缺陷; β地中海贫血; 氨甲 酰磷酸合成酶缺乏症; 巴特综合征; 半胱氨酸尿症; 半乳糖血症; 丙二酰辅酶 Α脱羧酶缺乏症; 丙酸血症; 丙酮酸羧化酶缺乏症; 丙酮酸脱氢酶复合物 E3结 合蛋白缺乏症; 丙酮酸脱氢酶磷酸酶缺乏症; 丙酮酸脱羧酶缺乏症; 长链酰基 辅酶 A脱氢酶缺陷症; 常染色体显性非综合征型耳聋; 常染色体显性营养不良 性大疱性表皮松解; 常染色体隐性多囊性肾病; 常染色体隐性非综合征型耳聋; 成骨不全; 丑胎 (丑角样鱼鳞病); 板层性鱼鳞病; 单纯性三角头畸形; 短链羟 酰基辅酶 A脱氢酶缺乏症; 短链酰基辅酶 A脱氢酶缺乏症; 多巴反应性肌张力障 碍 (张力障碍); 多发性内分泌腺瘤病; 多种酰基辅酶 A脱氢酶缺乏症; 苯丙酮尿 症; 法布瑞氏症; 范可尼贫血; 非酮症性高甘氨酸血症; 腓骨肌萎缩症; 枫糖 尿病 (支链酮酸尿症); 肝豆状核变性; 高脯氨酸血症 II型; 高脯氨酸血症 I型; 高甲硫氨酸血症; 高鸟氨酸血症; 各型鱼鳞病; 共济失调伴选择性维生素 E缺 乏症; 共济失调性毛细血管扩张症; 骨硬化症; 瓜胺酸血症; 赫尔勒综合征 (粘 多糖贮积病 1H型); 黑斑息肉综合征; 活化蛋白 C抵抗引起的易栓症; 肌-眼-脑 病; 极长链酰基辅酶 A脱氢酶缺乏症; 脊髓性肌萎缩 (脊肌萎缩症, SMA) ; 家 族性腺瘤性息肉病; 甲基丙二酸血症; 假性软骨发育不全; 渐冻人症; 交界型 大疱性表皮松解症,赫利茨型; 角化症掌跖病纹状体; 结节性硬化病; 进行性肌 阵挛性癫痫; 进行性家族性肝内胆汁瘀积; 进行性假肥大性肌营养不良症; 精 氨酸琥珀酸尿症; 精氨酸酶缺乏症; 胫骨肌营养不良症; 局灶性节段性肾小球 硬化症; 克拉伯病; 酪氨酸羟化酶缺乏症 (Segawa 综合征); 酪氨酸血症; 硫解 酶缺乏症; 马凡综合症; 囊性纤维化; 尼曼-皮克病; 尼曼-皮克病 (磷脂贮积症); 年龄相关性黄斑变性; 胼胝体发育不全及周围神经病变; 葡萄糖 -6-磷酸脱氢酶 缺乏症; 强直性肌营养不良 1型; 肉毒碱棕榈酰转移酶 I缺乏症; II缺乏症; 肉 碱棕榈酰转移酶 Π缺乏症; 肉碱棕榈酰转移酶 I缺乏症; 沙勒沃伊 -萨格奈常染 色体隐性遗传痉挛性共济失调; 神经节苷脂贮积症; 神经纤维瘤病; 神经元蜡 样质脂褐质沉积症 1型; 肾病型胱胺酸症; 史蒂克勒氏综合征; 视网膜色素变 性; 舒-戴二氏综合症; 双氢嘧啶脱氢酶缺乏症; 糖原累积病; 特雷彻-柯林斯 综合征; 天冬氨酰葡萄糖胺尿症; 同型半胱氨酸尿症; 同型瓜氨酸尿症综合症; 透克氏症; 瓦登伯格综合征; 戊二酸血症 I型; 先天性纯巨核细胞再障血小板减 少症; 先天性胆汁淤积; 先天性耳聋伴甲状腺肿大 (Pendred综合征); 先天性肌 强直; 先天性肌弛缓; 先天性甲状腺功能减退症; 先天性软骨发育不全; 先天 性视网膜劈裂症; 先天性糖蛋白糖基化缺陷 la型; 显性多发性骨骺发育异常 (MED) ; 小儿异染性脑白质营养不良; 新生儿永久性糖尿病; 新生儿致命的软 骨发育不良; 新生儿重症脑病; 血友病; 牙本质发育不全; 延森氏综合征; Mohr-Tranebjaerg综合征; 眼白化病; 遗传性 X连锁性痉挛性截瘫; 遗传性多发 性外生骨疣; 软骨肉瘤; 遗传性非息肉病性结直肠癌 (Lynch 综合征); 遗传性 非息肉性结直肠癌 2型; 遗传性共济失调性多发性神经炎样病 (Refsum综合征); 遗传性果糖不耐症; 遗传性家族性颅面骨发育不全; 遗传性酪氨酸血症 1型; 遗传性乳腺癌; 遗传性显性痉挛性截瘫; 遗传性眼球萎缩病; 遗传性隐性痉挛 性截瘫; 异戊酸血症; 隐性多发性骨骺发育异常 (MED) ; 尤塞氏综合症; 有汗 型外胚层发育不良; 幼婴癫痫性脑病; 原发性高草酸盐尿症 2型; 早年衰老综 合症; 扩张型心肌病 1A型; 肢带型肌营养不良症; 粘多糖贮积症 II型; 掌跖角 化病 (掌跖硬化病); 肢带型进行性肌肉萎缩症; 中链酰基辅酶 A脱氢酶缺乏症; 侏儒 -面部毛细血管扩张综合征 (布卢姆综合征); 综合征型耳聋; 组氨酸血症; 家族性腺瘤样息肉病; 软骨发育不良; 家族性高胆固醇血症; 多指畸形; 马凡 综合症; 遗传性舞蹈病; 秃发; 胱氨酸尿症; 遗传性高度近视; 抗 D佝偻病; 血友病; 节性脑硬化综合症; 杜氏肌营养不良; 进行性肌营养不良; 多囊肾综 合症; 性别决定基因突变所致的性反转, 或其组合。

在另一优选例中, 所述外显子检测区覆盖 20-100M大小的基因组区域。

在另一优选例中, 所述外显子检测区覆盖 35M-70M大小的基因组区域, 较佳 地, 覆盖 45M大小的基因组区域。

在另一优选例中, 所述检测区的探针特异性地针对人或非人哺乳 动物的核苷 酸序列。

在另一优选例中, 所述的 Tag-SNP检测区用于检测在个人基因组中存在的

SNP。

在另一优选例中, 所述的用于检测 Tag-SNP的寡核苷酸探针是对泛基因组的 SNP进行聚类并挑选 Tag-SNP而获得的。

在另一优选例中, Tag-SNP的寡核苷酸探针包括序列如 SEQ ID NO.l-SEQ ID

NO.10任一所示的探针。

在本发明的第二方面, 提供了本发明第一方面所述超级芯片的用途, 所述超 级芯片用于获取人基因组的核苷酸序列信息。

在另一优选例中, 所述的核苷酸序列信息包括 SNP信息。

在本发明的第三方面, 提供了一种超级芯片的制备方法, 包括步骤: 将寡核 苷酸探针组成包括多个检测点的检测区, 所述检测区包括:

(al)外显子检测区; (bl)Tag-SNP检测区; 和 (cl)白细胞抗原检测区。

在另一优选例中, 所述检测区还包括: (dl) 单基因病检测区。

在另一优选例中, 所述芯片具有固相载体, 较佳地, 所述固相载体为基片或 微球, 更佳地, 所述固相载体为荧光微球, 最佳地为聚苯乙烯微球。

在另一优选例中, 所述芯片为: 包括探针组合物的液相芯片。

在另一优选例中, 所述方法还包括位于在点样之前的以下步骤:

(i)从数据库中过滤筛选 SNP, 获得初始 SNP数据集; (ii)从初始 SNP数据集 中选择标签 SNPCTag-SNP); (iii)合成针对标签 SNP的寡核苷酸。

在另一优选例中, 步骤 (i)中的初始 SNP满足下述条件: 在数据库所选人群 中多态性碱基型为二种的位点; 在数据库所选人群中, 数据缺失率 <0.1的位点; 等位基因碱基型出现次数大于一次的位点。

在另一优选例中, 步骤 (ii)中的 Tag-SNP包括: 标准的 Tag-SNP部分; 和 Y染 色体 Tag-SNP部分。

在另一优选例中, 标准的 Tag-SNP是通过最优聚类, 根据连锁不平衡数据, 将群体多态位点聚类并挑选获得的。

在本发明的第四方面, 提供了一种筛选标签 SNP(Tag-SNP)的方法, 包括步 骤:

(A) 从数据库中过滤筛选 SNP, 获得初始 SNP数据集;

(B) 从初始 SNP数据集中, 通过最优聚类, 根据连锁不平衡数据, 将群体 多态位点聚类获得, 从而选出标签 SNP。

在本发明的第五方面, 提供了一种试剂盒, 包括一容器以及位于所述容器 内的本发明第一方面所述的超级芯片。

在另一优选例中, 试剂盒还包括任选自下组的试剂: 测序用引物; PCR反 应试剂及纯化试剂; 测序芯片; 或其组合。 应理解,在本发明范围内中,本发明的上述各 技术特征和在下文 (如实施例) 中具体描述的各技术特征之间都可以互相组合 , 从而构成新的或优选的技术方 案。 限于篇幅, 在此不再一一累述。 附图说明

下列附图用于说明本发明的具体实施方案, 而不用于限定由权利要求书所 界定的本发明范围。

图 1显示了群体多态 SNP位点, 各个点代表孤点。

图 2显示了孤点初始化结果, 黑线代表的是连接数 (此时 R 2 阈值为 0.99), 点 1-3代表 tag-SNP。

图 3显示了最优聚类的结果, 点 1-3代表 tag-SNP, 孤点和孤点发生连接, 直 接聚集成一个新的簇, 并挑选假定 tag-SNP (图 3标 "a"处); 簇和孤点发生连接, 如果可以产生符合条件的 tag-SNP, 则簇将孤点吞并, 并更新 tag-SNP, 否则, 不发生任何吞并(图 3标" b"处); 簇和簇发生连接, 如果可以产生符合条件的 tag-SNP, 则簇的合并, 并更新 tag-SNP, 否则, 不发生任何吞并 (图 3标" c"处)。

图 4显示了最终聚类结果, 包括每个簇的组成、 假定 tag-SNP等信息, 虚线 段代表 R 2 超过最低阈值, 但是不满足合并条件。

图 5显示了在本发明的一个优选例中, 超级芯片 (ALL IN ONE)的基本组成。 图 6显示了本发明超级芯片 (ALL IN ONE)和对照组芯片 (Asiom— GW— ASI) 对基因组覆盖程度检测结果, 结果表明, 本发明的超级芯片对全基因组的覆盖 度会比对照 (Asiom— GW—ASI)要高。

图 7显示了本发明的超级芯片 (ALL IN ONE)和对照组芯片

(Asiom— GW—ASI)的 MAF分布的检测结果, 结果表明, 超级芯片的 MAF比对照 组要低, 特别在 2.5%〜10%这个区间尤为集中, 表明超级芯片对流行病学的研 究非常有利。

图 8显示了本发明的超级芯片 (ALL IN ONE)和对照组芯片对 tag-SNP覆盖 度的检测结果。

图 9显示了超级芯片 (ALL IN ONE)和对照组芯片对 tag-SNP之间距离检测 结果, 结果表明, 超级芯片 (ALL IN ONE)的 tag-SNP之间的距离更接近 lkb, 探 针距离分布比较接近 SNP的自然发生距离, 而且明显比对照组 Asiom— GW—ASI 更密集。

图 10显示了 tag-SNP单碱基深度分布图。 具体实施方式

本发明人经过广泛而深入的研究, 首次开发了一种能够筛选群体特异性和代 表性位点的超级芯片 (ALL IN ONE),所述超级芯片至少包括外显子检测区, Tag-SNP 检测区, 人类白细胞抗原 (HLA)检测区。 所述超级芯片能够在短时间内检测多种疾 病, 与现有芯片相比, 疾病覆盖率大, 大大提高捕获区域, 并显著降低了检测成 本。 本发明还提供了所述芯片的制备方法和用途。 在此基础上完成了本发明。 术语

如本文所用,术语"含有"包括"具有 (comprise)"、 "基本上由…构成"和 "由… 构成"。如本文所用,术语"以上"和"以下"包括 数,例如" 80%以上"指≥80%,"2% 以下"指≤2%。 单核苷酸多态性 (SNP)

SNP是指在基因组上单个核苷酸的变异, 包括置换、 颠换等情况。 SNP形 成的遗传标记数量很多, 多态性丰富。 转换和颠换二者之比一般为 2: 1。 SNP在 CG序列上出现最为频繁, 而且多是 C转换为 T, 原因是 CG中的 C常为甲基化的, 自发地脱氨后即成为胸腺嘧啶。 它是人类可遗传的变异中最常见的一种, 占所 有已知多态性的 90%以上。 正因为如此, SNP成为第三代遗传标志, 人体的许 多表型差异, 如对药物或疾病的易感性等都可能与 SNP有关。 SNP检测作为一 个强有力的工具, 可用于高危群体的发现、 疾病相关基因的鉴定、 药物的设计 和测试以及生物学的基础研究等。 大量存在的 SNP位点, 使人们有机会发现与 各种疾病, 包括肿瘤相关的基因组突变; 从实验操作来看, 通过 SNP发现疾病 相关基因突变要比通过家系来得容易;有些 SNP并不直接导致疾病基因的表达, 但由于它与某些疾病基因相邻, 而成为重要的标记。 SNP在基础研究中也发挥 了巨大的作用, 近年来对 Υ染色体 SNP的分析, 使得在人类进化、 人类种群的 演化和迁徙领域取得了一系列重要成果。

SNP既有可能在基因序列内, 也有可能在基因以外的非编码序列上, 位于 编码区内的 SNP(coding SNP, cSNP)比较少, 但它在遗传性疾病研究中却具有 重要意义, 因此 cSNP的研究更受关注。 SNP自身的特性决定了它非常适合于对 复杂性状与疾病的遗传解剖以及基于群体的基 因识别等方面的研究: 1.SNP数 量多, 分布广泛。 据估计, 人类基因组中每 1000个核苷酸就有一个 SNP, 人类 30亿碱基中共有 300万以上的 SNPs; 2.SNP适于规模化筛查, 由于 SNP的二态性, 非此即彼, 在基因组筛选中 SNPs往往只需 +/-的分析, 而不用分析片段的长度, 这就利于发展自动化技术筛选或检测 SNPs; 3.SNP等位基因频率容易估计; 4. 易于基因分型等。

单基因病

如本文所用, "单基因病"一词是指由一对等位基因控制的疾 或病理性状, 又称孟德尔遗传病, 可以分为常染色体显性遗传病、 常染色体隐性遗传病、 X 伴性遗传病、 Y伴性遗传病。 常染色体显性遗传病致病基因定位于常染色体 上, 常见的亚型: 完全显性: 正常纯合子和杂合子的患者在表型上无差异; 不完全 显性: 杂合子表现介于显性纯合子患者和正常人之间 , 常表现为轻病型; 不规 则显型: 由于某种原因可使杂合子的显性基因不表现出 相应的症状; 共显性: 等位基因之间无显性与隐性之分, 在杂合体时都能表现两种基因作用; 延迟显 性: 杂合子在生命早期显性基因不表达, 待一定年龄后才表达; 从性显性: 杂 合子的表达受性别的影响, 在某一性别表达出相应的表现型, 在另一性别不表 达相应表现型。 常染色体隐性遗传病的常染色体上的致病基因 在杂合状态时不 表现相应的疾病, 而只在纯合子时才致病。 定位于 X染色体上的致病基因随 X 染色体而遗传疾病, 包括 X连锁显性遗传和 X连锁隐性遗传。 定位于 Y染色体上 的致病基因随 Y染色体而遗传疾病。

适用于本发明超级芯片的单基因病包括但不限 于: 在另一优选例中, 所述 的单基因病选自下组: 3β-羟类固醇脱氢酶缺陷症; 3-甲基巴豆酰辅酶 Α羧化酶缺 乏症; 3-羟酰辅酶 A脱氢酶缺乏症; Alagille 综合症 (先天性胆道闭锁综合症); Alport综合征(遗传性肾炎); Apert 综合征; Arts综合征; Diamond-Blackfan贫 血 (先天性纯红细胞再生障碍性贫血); Emery-Dreifuss型肌营养不良; Friedreich 共济失调; Gilbert 综合症; Jackson-Weiss颅缝早闭综合征; Joubert综合症; Marshall综合症; Meckel综合征; Pallister-Hall综合征; QT间期延长综合征; Waardenburg综合征; Weissenbacher-Zweymuller综合征; Wolfram综合征 1型; X连锁铁粒幼细胞贫血; 红细胞生成性原卟啉症; 先天性角化不全症; X连锁型 鱼鳞病; X连锁性视网膜色素变性 3型; X连锁隐性耳聋; X连锁重症联合免疫 缺陷; β地中海贫血; 氨甲酰磷酸合成酶缺乏症; 巴特综合征; 半胱氨酸尿症; 半乳糖血症; 丙二酰辅酶 Α脱羧酶缺乏症; 丙酸血症; 丙酮酸羧化酶缺乏症; 丙酮酸脱氢酶复合物 E3结合蛋白缺乏症; 丙酮酸脱氢酶磷酸酶缺乏症; 丙酮酸 脱羧酶缺乏症; 长链酰基辅酶 A脱氢酶缺陷症; 常染色体显性非综合征型耳聋; 常染色体显性营养不良性大疱性表皮松解; 常染色体隐性多囊性肾病; 常染色 体隐性非综合征型耳聋; 成骨不全; 丑胎 (丑角样鱼鳞病); 板层性鱼鳞病; 单 纯性三角头畸形; 短链羟酰基辅酶 A脱氢酶缺乏症; 短链酰基辅酶 A脱氢酶缺乏 症; 多巴反应性肌张力障碍 (张力障碍); 多发性内分泌腺瘤病; 多种酰基辅酶 A 脱氢酶缺乏症; 苯丙酮尿症; 法布瑞氏症; 范可尼贫血; 非酮症性高甘氨酸血 症; 腓骨肌萎缩症; 枫糖尿病 (支链酮酸尿症); 肝豆状核变性; 高脯氨酸血症 II型; 高脯氨酸血症 I型; 高甲硫氨酸血症; 高鸟氨酸血症; 各型鱼鳞病; 共济 失调伴选择性维生素 E缺乏症; 共济失调性毛细血管扩张症; 骨硬化症; 瓜胺 酸血症; 赫尔勒综合征 (粘多糖贮积病 1H型); 黑斑息肉综合征; 活化蛋白 C抵 抗引起的易栓症; 肌 -眼-脑病; 极长链酰基辅酶 A脱氢酶缺乏症; 脊髓性肌萎缩 (脊肌萎缩症, SMA) ; 家族性腺瘤性息肉病; 甲基丙二酸血症; 假性软骨发育 不全; 渐冻人症; 交界型大疱性表皮松解症,赫利茨型; 角化症掌跖病纹状体; 结节性硬化病; 进行性肌阵挛性癫痫; 进行性家族性肝内胆汁瘀积; 进行性假 肥大性肌营养不良症; 精氨酸琥珀酸尿症; 精氨酸酶缺乏症; 胫骨肌营养不良 症; 局灶性节段性肾小球硬化症; 克拉伯病; 酪氨酸羟化酶缺乏症 (Segawa 综 合征); 酪氨酸血症; 硫解酶缺乏症; 马凡综合症; 囊性纤维化; 尼曼-皮克病; 尼曼-皮克病 (磷脂贮积症); 年龄相关性黄斑变性; 胼胝体发育不全及周围神经 病变; 葡萄糖 -6-磷酸脱氢酶缺乏症; 强直性肌营养不良 1型; 肉毒碱棕榈酰转 移酶 I缺乏症; II缺乏症; 肉碱棕榈酰转移酶 II缺乏症; 肉碱棕榈酰转移酶 I缺乏 症; 沙勒沃伊-萨格奈常染色体隐性遗传痉挛性共 失调; 神经节苷脂贮积症; 神经纤维瘤病; 神经元蜡样质脂褐质沉积症 1型; 肾病型胱胺酸症; 史蒂克勒 氏综合征; 视网膜色素变性; 舒-戴二氏综合症; 双氢嘧啶脱氢酶缺乏症; 糖原 累积病; 特雷彻-柯林斯综合征; 天冬氨酰葡萄糖胺尿症; 同型半胱氨酸尿症; 同型瓜氨酸尿症综合症; 透克氏症; 瓦登伯格综合征; 戊二酸血症 I型; 先天性 纯巨核细胞再障血小板减少症; 先天性胆汁淤积; 先天性耳聋伴甲状腺肿大 (Pendred综合征); 先天性肌强直; 先天性肌弛缓; 先天性甲状腺功能减退症; 先天性软骨发育不全; 先天性视网膜劈裂症; 先天性糖蛋白糖基化缺陷 la型; 显性多发性骨骺发育异常 (MED) ; 小儿异染性脑白质营养不良; 新生儿永久性 糖尿病; 新生儿致命的软骨发育不良; 新生儿重症脑病; 血友病; 牙本质发育 不全; 延森氏综合征; Mohr-Tranebjaerg综合征; 眼白化病; 遗传性 X连锁性痉 挛性截瘫; 遗传性多发性外生骨疣; 软骨肉瘤; 遗传性非息肉病性结直肠癌 (Lynch 综合征); 遗传性非息肉性结直肠癌 2型; 遗传性共济失调性多发性神经 炎样病 (Refsum综合征); 遗传性果糖不耐症; 遗传性家族性颅面骨发育不全; 遗传性酪氨酸血症 1型; 遗传性乳腺癌; 遗传性显性痉挛性截瘫; 遗传性眼球 萎缩病; 遗传性隐性痉挛性截瘫; 异戊酸血症; 隐性多发性骨骺发育异常 (MED) ; 尤塞氏综合症; 有汗型外胚层发育不良; 幼婴癫痫性脑病; 原发性高 草酸盐尿症 2型; 早年衰老综合症; 扩张型心肌病 1A型; 肢带型肌营养不良症; 粘多糖贮积症 Π型; 掌跖角化病 (掌跖硬化病); 肢带型进行性肌肉萎缩症; 中 链酰基辅酶 A脱氢酶缺乏症; 侏儒 -面部毛细血管扩张综合征 (布卢姆综合征); 综合征型耳聋; 组氨酸血症; 家族性腺瘤样息肉病; 软骨发育不良; 家族性高 胆固醇血症; 多指畸形; 马凡综合症; 遗传性舞蹈病; 秃发; 胱氨酸尿症; 遗 传性高度近视; 抗 D佝偻病; 血友病; 节性脑硬化综合症; 杜氏肌营养不良; 进行性肌营养不良; 多囊肾综合症; 性别决定基因突变所致的性反转, 或其组 合。

外显子及外显子组

如本文所用, "外显子"一词是指在成熟 mRNA中被保留下的部分, 即成熟 mRNA对应于基因中的部分。 内含子是在 mRNA加工过程中被剪切掉的部分, 在成熟 mRNA中不存在。 外显子和内含子都是对于基因而言的, 编码的部分为 外显子, 不编码的为内含子, 内含子没有遗传效应。 如本文所用, "外显子组" 一词是指样本在一定的时刻所有表达的外显子 的组合。

人类白细胞抗原 (HLA)

人类白细胞抗原 HLA是具有高度多态性的同种异体抗原, 其化学本质为一 类糖蛋白, 由一条 α重链 (被糖基化的)和一条 β轻链非共价结合而成, 其肽链的 氨基端向外 (约占整个分子的 3/4),羧基端穿入细胞质, 中间疏水部分在胞膜中。 HLA按其分布和功能分为 I类抗原和 II类抗原。 HLA的多态性极为突出。 保守 估计, 至少存在 1300个不同的单体型, 相应地约有 17x l0 7 个基因型。 这就是除 同卵双生子以外几乎无 HLA相同者的遗传基础, 从而 HLA可视作个体的 "身份 证", 作为疾病检测的标志。

泛基因组 (pan-genome)

如本文所用, "泛基因组"一词是某一物种全部基因的总称, 泛基因组包括 核心基因组 (core genome)以及非必须基因组。 核心基因组是在某一物种的群体 中普遍存在的基因;非必须基因组是在部分群 体中存在的基因。在实际研究中, 泛基因组也可以分成核心基因组 (在所有群体中都存在的基因)、 非必须基因组 (在 2个以及 2个以上的群体中存在的基因), 以及群体特有基因(strains-specific gene, 即仅在某一个群体中存在的基因)。 根据物种的泛基因组大小与群体数目 的关系, 将物种的泛基因组分为开放型 (open)泛基因组和闭合型 (close)泛基因 组。 开放型的泛基因组是指, 随着测序的基因组数目的增加, 物种的泛基因组 大小也不断增加。 闭合性的泛基因组是指, 随着测序的基因组数目增加, 物种 的泛基因组大小增加到一定的程度后收敛于某 一值。 本发明的超级芯片包括了 通过 pan-genome分析策略获得的 SNP数据, 用于疾病检测和筛选。

芯片

本发明提供了一种芯片及其制备方法。 芯片包括核酸检测区, 各核酸检测区 包括多个检测点,各检测点固定有用于与待检 测核酸杂交的寡核苷酸探针,所述的 检测区包括: 外显子检测区、 Tag-SNP检测区和白细胞抗原检测区。 在本发明另一 优选例中, 所述芯片具有固相载体, 较佳地, 固相载体为基片或微球, 更佳地, 所 述固相载体为荧光微球, 最佳地为聚苯乙烯微球。在本发明的另一优选 例中, 所述 芯片为包括探针组合物的液相芯片。

超级芯片 (ALL IN ONE)

本发明提供了一种超级芯片, 所述芯片表面的探针种类可达上百万种, 能 一次对同一个待测样品检测多种疾病。 该超级芯片能覆盖人类的外显子区域和 多达几百种疾病相关的基因, 大约 150M的基因区域。 该超级芯片具有外显子检 测区, Tag-SNP检测区, 人类白细胞抗原 (HLA)检测区, 在一个优选例中, 还包括 单基因病致病基因检测区。

本发明超级芯片的外显子检测区包括目前最新 的约 50M大小的基因组区域, 提供功能基因相关变异信息; Tag-SNP检测区涵盖人种中的代表性信息, 该部 分通过对现有公共 SNP数据以及泛基因组 (pan-genome)分析策略获得的数据进 行筛选得到, 对挖掘研究样品中群体特异性基因组信息有显 著价值; ALL IN ONE还整合了整个 HLA区域的信息。 由于该区域和疾病的发生以及免疫具有密 切关系, 因此该部分信息的涵盖无论对人类疾病的机理 研究还是药物研发具有 重要意义。 在一个优选例中, 还可以把已经确认的致病基因, 尤其是孟德尔疾病 致病基因位点设计到 ALL IN ONE中, 从而提供更丰富的数据。

本发明还提供了一种超级芯片的制备方法, 包括步骤: 将寡核苷酸探针组成 包括多个检测点的检测区, 所述检测区包括: (al) 外显子检测区; (bl) Tag-SNP 检测区; 和 (cl) 白细胞抗原检测区。在另一优选例中, 所述检测区还包括: (dl) 单 基因病检测区。 在另一优选例中, 所述芯片具有固相载体, 较佳地, 固相载体包括 基片或微球, 更佳地, 所述微球为荧光微球, 最佳地为聚苯乙烯微球。

在另一优选例中, 所述芯片为包括探针组合物的液相芯片。

外显子数据来源基于 ensembl, refgene , CCDS及 genecode数据的库整合。 ensembl:ftp:〃 ftp.ensembl.org/pub/current/gtf/homo— sapiens/Homo— sapiens.G Ch37.61.gtf.gz

refgene: ftp://hgdownload.cse.ucsc.edu/goldenPath/h l9/database/refGene.txt.

CCDS:ftp:〃 ftp.ncbi.nih.gov/pub/CCDS/current human/CCDS .current.txt genecode:ftp://ftp. sanger.ac.uk/pub/gencode/exome/GENCODE_exome_desig n target.gtf.gz

HLA区域数据来源: http ://www · ebi · ac.uk/imgt/hla/

单 基 因 病 致 病 基 因 区 域 数 据 来 源 于 孟 德 尔 在 线 : http://www.ncbi.nlm.nih.gov/omim, http://omim.org/

这些外显子、 HLA区域以及单基因病致病基因区域的数据库的 信息可通过 公开途径获得。

在一个优选例中,所述方法还包括位于在点样 之前的以下步骤: i.从数据库中 过滤筛选 SNP, 获得初始 SNP数据集; ii.从初始 SNP数据集中选择标签 SNP; iii. 合成针对标签 SNP的寡核苷酸。

在步骤 (i)中, 初始 SNP满足下列三个条件: 在数据库所选人群中多态性碱基 型为二种的位点; 在数据库所选人群中, 数据缺失率 <0.1的位点; 等位基因碱 基型出现次数大于一次的位点。

在步骤 (ii)中, Tag-SNP包括标准的 Tag-SNP部分和 Y染色体 Tag-SNP部分。 探针

如本文所用, "探针 "一词是指能够检测互补核酸序列的简单 DNA或 RNA分 子。 探针必须是纯净的, 而且不受其他不同序列核酸的影响。 典型的探针是克 隆的 DNA序列或通过 PCR扩增获得的 DNA, 人工合成的寡核苷酸或从体外转录 克隆 DNA序列后获得的 RNA, 也可以作为探针。 探针长度可以从 20-120mer, 较佳地 50-100mer, 更佳地 60-90mer。 探针设计和合成方法为本领域技术人员所 熟知,根据单基因病的已知的致病基因的外显 子及其前后两端序列 (较佳地前后 200bp左右), 设计探针。 在一个优选例中, 探针长度 50-80mer。 可以使用人工 化学合成法合成探针或使用市售探针。 本发明的核酸探针根据 Tag-SNP设计而 来, 如, Tag-SNP的寡核苷酸探针包括序列如 SEQ ID NO.1- SEQ ID NO.10任一所 示的探针。

引物

如本文所用, 术语 "引物"指的是能与模板互补配对, 在 DNA聚合酶的作 用合成与模板互补的 DNA链的寡聚核苷酸的总称。 引物可以是天然的 RNA、 DNA, 也可以是任何形式的天然核苷酸, 引物甚至可以是非天然的核苷酸如 LNA或 ZNA等。 引物"大致上 "(或 "基本上")与模板上一条链上的一个特殊的序 列互补。 引物必须与模板上的一条链充分互补才能开始 延伸, 但引物的序列不 必与模板的序列完全互补。 比如, 在一个 3'端与模板互补的引物的 5'端加上一 段与模板不互补的序列, 这样的引物仍大致上与模板互补。 只要有足够长的引 物能与模板充分的结合, 非完全互补的引物也可以与模板形成引物-模 复合 物, 从而进行扩增。

高通量测序

基因组的"再测序"使得人类能够尽早地发现与 病相关基因的异常变化, 有助于对个体疾病的诊断和治疗进行深入的研 究。 本领域技术人员通常可以采 用三种第二代测序平台进行高通量测序: 454 FLX(Roche公司)、 Solexa Genome Analyzer(Illumina公司)和 Applied Biosystems 公司的 SOLID等。这些平台共同的 特点是极高的测序通量, 相对于传统测序的 96道毛细管测序, 高通量测序一次 实验可以读取 40万到 400万条序列, 根据平台的不同, 读取长度从 25bp到 450bp 不等, 因此不同的测序平台在一次实验中, 可以读取 1G到 14G不等的碱基数。 其中, Solexa 高通量测序包括 DNA簇形成和上机测序两个步骤: PCR扩增产物 的混合物与固相载体上固定的测序探针进行杂 交, 并进行固相桥式 PCR扩增, 形成 测序簇; 对所述测序簇用"边合成 -边测序法"进行测序, 从而得到样本中核酸分子 的核苷酸序列。

DNA簇的形成是使用表面连有一层单链引物 (primer)的测序芯片 (flow cell) 单链状态的 DNA片段通过接头序列与芯片表面的引物通过碱 基互补配对的原 理被固定在芯片的表面, 通过扩增反应, 固定的单链 DNA变为双链 DNA, 双链 再次变性成为单链, 其一端锚定在测序芯片上, 另一端随机和附近的另一个引 物互补从而被锚定, 形成"桥"; 在测序芯片上同时有上千万个 DNA单分子发生 以上的反应; 形成的单链桥, 以周围的引物为扩增引物, 在扩增芯片的表面再 次扩增, 形成双链, 双链经变性成单链, 再次成为桥, 称为下一轮扩增的模板 继续扩增; 反复进行了 30轮扩增后, 每个单分子得到 1000倍扩增, 称为单克隆 的 DNA簇。 DNA簇在 Solexa测序仪上进行边合成边测序, 测序反应中, 四种碱基分别 标记不同的荧光,每个碱基末端被保护碱基封 闭,单次反应只能加入一个碱基, 经过扫描, 读取该次反应的颜色后, 该保护集团被除去, 下一个反应可以继续 进行, 如此反复, 即得到碱基的精确序列。 在 Solexa多重测序 (Multiplexed Sequencing)过程中会使用 Index(标签)来区分样品, 并在常规测序完成后, 针对 Index部分额外进行 7个循环的测序, 通过 Index的识别, 可以在 1条测序甬道中 区分 12种不同的样品。

Tag-SNP的筛选方法

此外, 本发明还提供了一种 Tag-SNP的筛选方法。 在一个优选例中, 所述 方法包括步骤:

1. 从数据库中过滤筛选 SNP, 获得初始 SNP数据集;

ϋ. 从初始 SNP数据集中, 通过最优聚类, 根据连锁不平衡数据, 将群体多 态位点聚类获得, 从而选出 Tag-SNP。

试剂盒

本发明还提供了一种试剂盒, 所述试剂盒包括: 容器以及位于容器内本发 明的超级芯片。 在本发明的一个优选例中, 试剂盒还包括任选自下组的试剂: 测序用引物; PCR反应试剂及纯化试剂; 测序芯片; 或其组合。 本发明的主要优点

1. 本发明的超级芯片整合多种检测区域, 如外显子检测区, Tag-SNP检测 区, 人类白细胞抗原 (HLA)检测区, 以及单基因病检测区等;

2. 该超级芯片疾病覆盖率大,能够在短时间内检 测多达 300种或更多种类 的疾病。 与现有芯片相比, 大大提高捕获区域, 疾病覆盖率大, 检测完全;

3. 与全基因测序相比, 大大降低了检测成本。 下面结合具体实施例, 进一步阐述本发明。 应理解, 这些实施例仅用于说 明本发明而不用于限制本发明的范围。 下列实施例中未注明具体条件的实验方 法,通常按照常规条件如 Sambrook等人,分子克隆:实验室手册 (New York: Cold Spring Harbor Laboratory Press, 1989)中所述的条件, 或按照制造厂商所建议的 条件。 实施例 1 原始数据准备

从千人 SNP数据库 (http:〃 www.1000genomes.org/, release/20100804)中挑选 93个中国人 (68个北方汉族人和 25个南方汉族人)的 SNP数据,并将挑选出的 SNP 数据集按以下三个条件过滤: 在数据库所选人群中多态性碱基型为二种的位 点; 在数据库所选人群中, 数据缺失率 <0.1的位点; 等位基因碱基型出现次数 大于一次的位点。 满足以上 3个条件的位点将构成初始的 SNP数据集。 实施例 2 选取 tag-SNP

1.标准 tag-SNP部分

利用 haploview软件计算两两 tag-snp位点之间的连锁不平衡 R 2 值。

参数如下: java -jar haploview .jar -n -memory 25000 -dprime -blockoutput ALL -maxDistance 100 -minMAF 0.01 -pairwiseTagging

通过最优聚类, 根据连锁不平衡数据, 将群体多态位点聚类, 然后再从聚 类结果中挑选合适的位点充当 tag-SNP。

最优聚类过程为: 将基因组中没有个群体多态 SNP位点理解为"孤 点" (point) , 当两个 SNP之间的 R 2 达到预定阈值后, 则认为此两点之间有 "关 联" (linkage), 可以用线段连接, 然后通过特定条件"聚集", 形成"簇" (cluster); 当 R 2 阈值从大到小, 一直递减至预设值, 簇之间无法再发生吞并, 整个最优聚 类结束。 所有能成功设置探针的标准 tag-SNP在配套结果文件中, 标注为 "Reason=R0"。 详细过程如下:

a. 读入所有多态 SNP位点的信息, 包括位置、等位基因频率和 R 2 (只记录大 于或等于预定 R 2 阈值的信息),得到散在的孤点图。图 1中黑点代表群体多态 SNP 位点。

b. 初始化:将所有两两 R 2 大于或等于 0.99的所有孤点连接 (完全不考虑在基 因组中的位置关系), 并默认为最初的簇, 在这个簇中挑选假定的 tag-SNP (图 2)。 图 2中黑线代表的是连接数 (此时 R 2 阈值为 0.99), 点 1-3代表 tag-SNP。

c. 最优聚类: 降低一个步长的 R 2 阈值, 从染色体起点到终点, 将可能出现 新的连接, 出现的新的连接可以归为下述三类:

孤点和孤点发生连接, 直接聚集成一个新的簇, 并挑选假定 tag-SNP ; (图 3 标" a"处);

簇和孤点发生连接, 如果可以产生符合条件的 tag-SNP , 则簇将孤点吞并, 并更新 tag-SNP, 否则, 不发生任何吞并(图 3标" b"处);

簇和簇发生连接, 如果可以产生符合条件的 tag-SNP , 则簇的合并, 并更新 tag-SNP, 否则, 不发生任何吞并(图 3标" c"处)。

循环直到在给定 R 2 阈值内没有出现任何吞并现象; 进入下一个 R 2 阈值。 d.输出最终聚类结果, 包括每个簇的组成、 假定 tag-SNP等信息。 图 4中虚 线段代表 R 2 超过最低阈值, 但是不满足合并条件。

e.挑选 tag-SNP

不考虑所有无法合并到"簇"的孤点, 直接选取假定的 tag-SNP, 或者根据聚 类信息重新选取 tag-SNP。

2. 挑选假定 ta g -SNP的标准

挑选假定 tag-SNP的标准, 条件按优先级从高到低排列:

在本簇中, 连接最多, 而且代表率 = (连接数 +1)/本簇的孤点数, 代表率 > 预设值; 次等位基因频率 (MAF)最接近 0.1 ; 对基因组的覆盖度最大。

3. 相关参数

R 2 下限: 0.8 ; MAF最小值 0.05 ; 代表率最小值 0.85。

4. 其他补全或者过滤部分

由于除去外显子区的标准 tag-SNP (—些并不是随机的自由组合, 而是更加 倾向于连在一起连锁不平衡的位点形成的区域 , 这个区域中比较有代表性的单 核苷酸多态性位点), 对基因组的覆盖度有限, 为了提供更好基因组覆盖度, 本 发明人将所有剩余的孤点, 按照其对全基因组的覆盖率排序, 取其前若干作为 补充; 结果文件中标记为" Reason=Rl"。

在过滤外显子区 tag-SNP (—些并不是随机的自由组合, 而是更加倾向于连 在一起连锁不平衡的位点形成的区域, 这个区域中比较有代表性的单核苷酸多 态性位点)时, 因为不必额外设计探针, 会将部分位点删除; 结果文件中标记为 "Reason=R3"。

在第一轮设计的时候, 将 tag-SNP (—些并不是随机的自由组合, 而是更加 倾向于连在一起连锁不平衡的位点形成的区域 , 这个区域中比较有代表性的单 核苷酸多态性位点)集合与以往基于黄种人的 GWAS (全基因组关联分析 X全基 因组关联分析)结果进行了比较, 在覆盖度达到 99%以上的情况下, 剩余的 1% 则没有出现在 7Mb多态位点中 (可能 MAF (次等位基因频率)太低); 直接将这 1% 的位点补全到第二轮设计里面, 在结果文件中标记为 "Reason=R4"。

在第一轮设计后, 将 tag-SNP (—些并不是随机的自由组合, 而是更加倾向 于连在一起连锁不平衡的位点形成的区域, 这个区域中比较有代表性的单核苷 酸多态性位点)集合与基于此 7Mb多态位点 Haploview运行结果中的 tag-snp (— 些并不是随机的自由组合, 而是更加倾向于连在一起连锁不平衡的位点形 成的 区域, 这个区域中比较有代表性的单核苷酸多态性位 点)结果进行比较, 在覆盖 度达到 75%以上的情况下, 剩余的部分补全到第二轮设计里面, 在结果文件中 标记为 "Reason=R5"。

如果两个 SNP (单核苷酸多态性)之间的距离小于 60-bp,则会去掉 MAF (次等 位基因频率)比较小的那个; 因为在捕获时也能正常被捕获, 故结果文件中未有 标注。

Tag-SNP成簇归类的例子

cluster的格式 >92472[block起点] 94288[block终点] snp=3[SNP数目] M— rs6560827 [建议 tag] 0.2795698924731 18 [建议 tag的 MAF] M_rs6560827[SNP编号] 10 [染色体] 93603 [位置] 2 [能代表的 SNP ¾] MAF=0.279569892473118[MAF]

5. Y染色体部分

直接引用了 Hapmap 3 在 Y染色体上的所有多态位点。 实施例 3

1. 基本评估

为了得到更加科学可观的结果, 本实施例的评估引用了 Agilent公司 (美国) 基于千人中亚洲人的数据研发的 GWAS芯片 Asiom— GW— ASI (598K) 作为对照。

2. 芯片基本组成

本实施例中芯片的基本组成见表 1。 图 5显示了芯片的基本能组成结构。

表 1

3. 对基因组覆盖程度检测

对基因组覆盖程度检测结果 (图 6)表明, 芯片对全基因组的覆盖度比对照

(Asiom— GW—ASI)要高, 可能的原因在于: 一方面基于的数据集以及设计选取 tag-snp的方法不一样, 另一方面由于评价所用的 tag-snp位点数的差异。

4. MAF分布检测

对 MAF分布的检测结果 (图 7)表明, 总体而言, 本发明芯片的 MAF比对照 组 Agilent公司的 Asiom— GW—ASI要低, 特别在 2.5%〜10%这个区间尤为集中, 对流行病学的研究非常有利。

5. tag-SNP之间距离检测

图 8显示了本发明的超级芯片 (ALL IN ONE)和对照组芯片对 tag-SNP覆盖 度的检测结果。 图 9显示了超级芯片 (ALL IN ONE)和对照组芯片对 tag-SNP之间 距离检测结果, 结果表明, 超级芯片 (ALL IN ONE)的 tag-SNP之间的距离更接 近 lkb, 探针距离分布比较接近 SNP的自然发生距离, 而且明显比对照组

Asiom— GW—ASI更密集。 实施例 4验证

1. 实验材料:

lM tag SNP 液相芯片(130M) 参考序列基因组: 人类 hgl9参考序列

2. 方法: 从千人 SNP数据库中挑选 93个中国人 (68个北方汉族人和 25个南 方汉族人)的 SNP数据, 并将挑选出的 SNP数据集按照以下三个条件过滤: 在数 据库所选人群中多态性碱基型为二种的位点; 在数据库所选人群中, 数据缺失 率<0.1的位点; 等位基因碱基型出现次数大于一次的位点。

3.挑选 tag-SNP, 得到 lM tag-SNP的液相芯片, 本实施例的芯片可以捕获大 概 130M的人类基因组区域。

用此芯片捕获 YH (炎黄)样本并分析得到如表 2所述的信息数据。

表 2

Tag-SNP单碱基深度分布如图 10所示。 根据图 10及表 2数据可以看出挑选的区 域被覆盖情况良好。 因此本方法挑选出的位点设计而成的芯片捕获 区域大大提高, 成本又大为降低。 实施例 5试剂盒

本发明还提供了一种试剂盒, 所述试剂盒包括:

(1)第一容器以及位于容器内的超级芯片;

(2)第二容器以及位于容器内的测序用引物;

(3)第三容器以及位于容器内的测序用接头;

(4)第四容器以及位于容器内的测序芯片;

(5)第五容器以及位于容器内的 PCR反应试剂;

(6)检测说明书。 在本发明提及的所有文献都在本申请中引用作 为参考, 就如同每一篇文献 被单独引用作为参考那样。此外应理解,在阅 读了本发明的上述讲授内容之后, 本领域技术人员可以对本发明作各种改动或修 改, 这些等价形式同样落于本申 请所附权利要求书所限定的范围。