Login| Sign Up| Help| Contact|

Patent Searching and Data


Title:
RICE WHOLE GENOME BREEDING CHIP AND APPLICATION THEREOF
Document Type and Number:
WIPO Patent Application WO/2014/121419
Kind Code:
A1
Abstract:
The present invention provides a rice whole genome breeding chip and the application thereof. The rice whole genome breeding chip of the present invention is Rice60K, an SNP chip manufactured based on Infinium technique for manufacturing chips. Each chip can detect 24 samples simultaneously and contains 58,290 SNP sites. The marker sites have DNA sequences as SEQ ID NO.1-58290. The chip can be used in molecular marker finger print analysis of the rice variety resources, in genotype identification of the hybrid progeny population, in identification of the variety authenticity, in analysis and screening of the genetic background of the breeding materials, and in association analysis of the agronomic traits, having wide application prospects.

Inventors:
ZHOU FASONG (CN)
CHEN HAODONG (CN)
XIE WEIBO (CN)
HE HANG (CN)
YU HUIHUI (CN)
TANG XIAOYAN (CN)
LI JING (CN)
ZHOU JUNLI (CN)
HE YUQING (CN)
CHEN WEI (CN)
ZHANG QIFA (CN)
DENG XINGWANG (CN)
Application Number:
PCT/CN2013/000131
Publication Date:
August 14, 2014
Filing Date:
February 07, 2013
Export Citation:
Click for automatic bibliography generation   Help
Assignee:
CHINA NAT SEED GROUP CO LTD (CN)
FRONTIER LAB OF SYSTEMS CROP DESIGN CO LTD (CN)
UNIV HUAZHONG AGRICULTURAL (CN)
SHENZHEN INST OF MOLECULAR CROP DESIGN (CN)
International Classes:
C40B40/06; C12N15/11; C12N15/29; C12Q1/68; G16B30/00
Foreign References:
CN102747138A2012-10-24
CN1675373A2005-09-28
Other References:
MCCOUCH, S.R. ET AL.: "Development of genome-wide SNP assays for rice.", BREEDING SCIENCE, vol. 60, 2010, pages 524 - 535
Attorney, Agent or Firm:
CN-KNOWHOW INTELLECTUAL PROPERTY AGENT LIMITED (CN)
北京路浩知识产权代理有限公司 (CN)
Download PDF:
Claims:
权 利 要 求 书

1、一种用于水稻基因分型的 SNP分子标记组合,其特征在于,由 58,290 个 SNP位点组成, 其核苷酸序列分别如 SEQ ID N0.1~ 58290所示。

2、 一种水稻全基因组育种芯片, 其特征在于, 包含 58,290个 SNP位 点, 其具有 SEQ ID NO.l~ 58290所示的核苷酸序列。

3、 一种筛选权利要求 1所述 SNP分子标记组合的方法, 其特征在于, 包括以下步骤:

( 1 )从 731个水稻品种测序数据中鉴定出 3,791,687个高质量 SNP位 点;

( 2 )提取 731个水稻品种中上述 SNP位点的基因型,并利用 LD-KNN 算法对 SNP基因型缺失值进行填补;

( 3 )经过第一次初筛获得 2,651,614个 SNP位点, 对于每个 SNP, 提 取曰本晴、 珍汕 97、 明恢 63的 SNP位点两侧 50 bp序列, 任意一侧序列满 足下列条件的 SNP位点保留: 1 ) 日本晴和珍汕 97或者日本晴和明恢 63 序列一致; 2 )该序列在基因组其他任何区域的匹配度 <85%;

( 4 )将水稻基因组划分为每 100 kb的区域,全基因组共被划分为 3,728 个区域, 计算每个区域中的任意两个 SNP的连锁不平衡 r2值,利用贪婪算 法按照 r2≥0.64将 SNP分组, 共分为 125,062个连锁群;

( 5 )在每个连锁群中挑选 5个最小等位基因频率 MAF, 最大的 SNP 位点提交给 Illumina公司 Infmium iSelect打分系统打分, 分值 <0.6的位点 去掉, 获得 283,451个 SNP;

( 6 )所有的因素权重参数如下: 1 ) A/T和 G/C 变化的 SNP权重为 0, 其他类型 SNP权重为 20; 2 ) Illumina iSelect打分系统权重为 10; 3 )最小 等位基因频率 MAF权重为 40; 4 ) LD的平均 r2值权重为 5; 5 )根据 SNP 在基因区域的位置, 基因间隔区、 内含子、 启动子、 5'端非编码区、 3'端非 编码区的权重分别为 1、 1.5、 2、 2和 2.5, 在编码区造成同义突变、 非同义 突变和大效应的突变的权重分别为 2、 5和 10; 最后共获得 58,290个标签 SNP位点。

4、 如权利要求 3所述的方法, 其特征在于, 步骤( 1 )的鉴定条件为 1 ) 按照该位点碱基组成比例由大到小排序, 第二种碱基的频率≥5%; 2 )拥有 第三种碱基的样本的数目 <10个,并且频率<2.5%; 3 )杂合基因型频率 <5%;

( 4 )该 SNP位点位于非重复区域。

5、 如权利要求 3所述的方法, 其特征在于, 步骤(2 )设定填补的 SNP 满足以下条件: 1 )缺失值的比例 <50%; 2 )在水稻基因组的 lOO kb的区域 至少能够找到一个连锁的 SNP,即连锁不平衡的 r2 值≥0.25 ,有 3,679,919 个 SNP位点能够进行基因型缺失值的填补, 所述 r为等位基因频率相关系数。

6、 权利要求 2所述芯片在水稻种质资源基因指紋分析中的应用。

7、 权利要求 2所述芯片在水稻杂交后代基因型鉴定中的应用。

8、 权利要求 2所述芯片在水稻品种鉴定中的应用。

9、 权利要求 2所述芯片在检测水稻育种材料中的应用。

10、 权利要求 2所述芯片在水稻全基因组关联分析中的应用。

Description:
水稻全基因组育种芯片及其应用

技术领域

本发明涉及基因组学、 分子生物学、 生物信息学和分子植物育种领域, 具体地, 涉及一种水稻全基因组育种芯片及其应用。 背景技术

近年来, DNA测序技术已取得了突破性进展, 第二代 DNA测序技术 的发展, 使基因组测序效率大大提高, 测序时间和成本大大降低, 为功能 基因组研究带来了极大的便利。 在水稻方面, 中国水稻分子生物学家利用 第二代测序技术, 于 2010年完成了对 517份中国水稻地方品种材料的重测 序, 构建了高密度的水稻单体型图谱(HapMap ), 利用全基因组关联分析 ( GWAS ) 的研究方法对籼稻品种的 14个重要农艺性状进行了关联分析, 并确定了这些农艺性状相关的候选基因位点, 同时建立了一套高效快速、 成熟稳定、准确、低成本的高通量基因型鉴定 方法(Huang等, Genome-wide association studies of 14 agronomic traits in rice landraces. Nat Genet. 2010, 42: 961-967 )。 随后, 测序数目扩大到 950个水稻品种, 通过关联分析发现了更 多控制抽穗期和产量相关位点( Huang等, Genome-wide association study of flowering time and grain yield traits in a worldwide collection of rice germplasm. Nat Genet. 2011 )。 华中农业大学科学家利用 Illumina测序技术完成了明恢 63和珍汕 97及其杂交分离群体的全基因组重测序,并开 了高通量群体基 因分型的方法,构建了包含 27万个 SNP标记的明恢 63和珍汕 97杂交分离 群体—— 210个重组自交系的超高密度遗传连锁图, 在 QTL定位分析中显 示出了强大功效 ( Xie等 , Parent-independent genotyping for constructing an ultrahigh-density linkage map based on population sequencing. Proc Natl Acad Sci USA. 2010, 107: 10578-10583; Yu等, Gains in QTL detection using an ultra-high density SNP map based on population sequencing relative to traditional RFLP/SSR markers. PLoS One. 2011, 6: el7595 )„ 最近, 中国农业 科学院、 深圳华大基因研究院和国际水稻研究所签署合 作协议, 启动了全 球 3000份水稻核心种质资源重测序项目, 显示水稻全基因组分子育种全面 展开。 到 2010年年底, 水稻中已经成功克隆了 600多个基因, 其中大量基 因控制重要农艺性状如产量、 品质、 抗生物和非生物胁迫、 营养利用效率 等, 这些基因具有很大的育种潜力 (Jiang 等, Rice functional genomics research: Progress and implications for crop genetic improvement. Biotechnol Adv. 2011 , 30: 1059-1070 )。至 2012年,水稻中克隆基因的数目已经超过 800 个。 水稻功能基因组的这些研究成果为水稻分子育 种提供了重要的基础数 据。

分子标记技术 ( Molecular marker technologies )是分子育种中的重要工 具。 传统分子标记技术, 如 RFLP ( Restriction Fragment Length Polymorphism, 限制性片段长度多态性) 和 SSR ( Simple Sequence Repeat, 简单序列重复)技术曾在功能基因组研究中发 挥着重要作用。 但是, 传统 的分子标记技术存在许多局限性, 如通量低、 数量少、 操作过程繁瑣, 不 能满足大规模商业化育种的需求。 为了对目标基因进行精确控制, 对遗传 背景进行有效选择, 对育种品种进行准确分析和鉴定, 我们需要开发和利 用高通量分子标记技术。 目前, 高通量分子标记技术平台主要有两种, 一 种是基于第二代测序技术, 另一种是基于基因芯片技术。 其中基于基因芯 片的分子标记技术主要有: SNP基因芯片 ( McNally等, Genomewide SNP variation reveals relationships among landraces and modern varieties of rice. Proc Natl Acad Sci USA. 2009, 106: 12273- 12278 ) , SFP ( Single Feature Polymorphism, 单片段多态性) ( Borevitz 等, Large-scale identification of single-feature polymorphisms in complex genomes. Genome Res. 2003, 13 : 513-523 ), DArT技术( Diversity Array Technology,多样性芯片技术 X Jaccoud 等 , Diversity arrays: a solid state technology for sequence information independent genotyping. Nucleic Acids Res. 2001 , 29: E25 )、 RAD ( Restriction site Associated DNA , 酶切位点关联 DNA ) ( Miller 等, RAD marker microarrays enable rapid mapping of zebrafish mutations. Genome Biol. 2007, 8: R105; Miller 等, Rapid and cost-effective polymorphism identification and genotyping using restriction site associated DNA (RAD) markers. Genome Res. 2007, 17: 240-248. ) 等。 由于 SNP位点具有分布广泛以及检测易于实现自 动化等优点, SNP 芯片是基因芯片技术中最适合用于大规模商业 化育种的 基因分型技术。 目前, 玉米中 Illumina Infmium MaizeSNP50芯片已经被用 于种质资源鉴定和关联分析(Ganal等, A large maize (Zea mays L.) SNP genotyping array: development and germplasm genotyping, and genetic mapping to compare with the B73 reference genome. PLoS One. 2011 , 6: e28334; Cook等 , Genetic architecture of maize kernel composition in the nested association mapping and inbred association panels. Plant physiology. 2011 ), 水 稻中 Affymetrix GeneChip Rice 44K基因芯片被用于水稻种质资源遗传多样 性分析禾口全基因组关联分析 ( Zhao 等, Genome-wide association mapping reveals a rich genetic architecture of complex traits in Oryza sativa. Nat Commun. 2011 , 2: 467 ),而不同密度的 Illumina GoldenGate SNP基因芯片已 经应用于水稻分子育种 ( Zhao等 , Genomic diversity and introgression in O. sativa reveal the impact of domestication and breeding on the rice genome. PLoS One. 2010, 5 : el 0780; Chen等 , Development and application of a set of breeder-friendly SNP markers for genetic analyses and molecular breeding of rice (Oryza sativa L) Theor Appl Genet. 2011 , 123 : 869-879 ; Thomson等, High-throughput single nucleotide polymorphism genotyping for breeding applications in rice using the BeadXpress platform. Mol Breeding. 2011 : 1- 12 )。

Illumina公司的 Infmium SNP芯片技术是目前比较成熟和应用广泛的 全基因组 SNP检测平台。 它应用激光共聚焦光纤微珠芯片技术和独特的 微 珠阵列 BeadArray技术生产的芯片可以承载数目巨大的微 珠,从而可以耦联 大量的 SNP探针数目。 目前该公司生产的人类 SNP芯片可容纳数百万个 SNP标记( http://www.illumina.com )。 在芯片制作时, 每个包含 20-50个脱 氧核苷酸的 SNP探针序列与特定的微珠耦联, 微珠种类根据承载的 SNP数 目决定, 从几千至千万以上, 每类微珠由其特定的地址序列和 SNP 探针序 列进行编码和检测。每种类型的微珠在每张芯 片上平均重复 15-30次, 从而 保证每个 SNP被检测的成功率和可重复性。 Illumina Infmium SNP芯片在人 类、 小鼠等物种的基因组变异研究中已得到广泛应 用, 在水稻育种领域缺 乏稳定高效高密度的全基因组育种芯片的现有 状况下,本发明基于 Illumina Infmium平台的芯片设计可以满足水稻大规模育 的需求。 发明内容

本发明的目的在于提供一种水稻全基因组育种 芯片。

本发明的另一目的在于提供上述水稻全基因组 育种芯片的应用。

本发明提供一种用于水稻育种的 SNP分子标记组合, 由 58,290个 SNP 位点组成, 其核苷酸序列分别如 SEQ ID NO. l~ 58290所示。

本发明提供一种水稻全基因组育种芯片,命名 为 Rice60K,包含 58,290 个 SNP位点, 其具有 SEQ ID NO. l~ 58290所示的核苷酸序列。该 58290个 序列, 每条序列均由 101个碱基组成, 并且在第 71位存在碱基变异。

本发明利用 Illumina测序技术对 211个水稻品种进行了全基因组测序, 每个样本获得 2.5倍的基因组覆盖度。 同时,本发明还从公共数据库下载了 520 个水稻地方品种的测序数据 ( http://www.ebi.ac.uk/ena/ , 登录号 ERP000106 , ERP000235 和 ERP000236 ), 每个样本 1 倍的基因组覆盖度 ( Huang等, Genome-wide association studies of 14 agronomic traits in rice landraces. Nat Genet. 2010, 42: 961-967 )。总共 731个水稻品种基因组测序数 据。 本发明涉及的 731 个水稻品种的基因组均为通过常规途径获得。 按照 以下步骤鉴定和筛选 SNP。

1、从 731个水稻品种测序数据中筛选出 3,791 ,687个高质量 SNP位点。 高质量的 SNP位点基于以下原则: SNP序列位于特异序列区域, SNP位点 有且只有两种碱基形式, 每种碱基形式占有一定比例, 品种中尽量不要出 现杂合基因型。考虑到测序具有一定的错误率 ,本发明设定了以下条件: ( 1 ) 按照该位点碱基组成比例由大到小排序, 第二种碱基的频率≥5%; ( 2 )拥有 第三种碱基的样本的数目 <10个, 并且频率<2.5% (这些碱基很可能是测序 错误造成的); (3 )杂合基因型频率 <5%; ( 4 )该 SNP位点位于非重复区域。

2、 提取 731个水稻品种中上述 SNP位点的基因型, 并利用 LD-KN 算法( K最邻近算法, K nearest neighbors )对 SNP基因型缺失值进行填补。 由于测序覆盖度低, 有大量 SNP位点缺失, 需要对缺失值进行填补。 本发 明限定填补后的 SNP 位点需要满足以下条件: (1 ) 填补后缺失值的比例 <50%; ( 2 )在水稻基因组的 100 kb的区域至少能够找到一个连锁的 SNP, 即 LD ( Linkage disequilibrium, 连锁不平衡) 的 r 2 值( r为等位基因频率 相关系数, Correlation Coefficient ) ≥0.25。 有 3,679,919 个 SNP位点能满 足以上条件。

3、 经过第一次初筛获得 2,651,614个 SNP位点。 对于每个 SNP, 提取 日本晴(TIGR水稻基因组注释 6.1版, http:〃 rice.plantbiology.msu.edu/ )、 珍 汕 97、 明恢 63的 SNP位点两侧 50 bp序列,任意一侧序列满足下列条件的 SNP位点保留: (1 ) 日本晴和珍汕 97或者日本晴和明恢 63序列一致; (2 ) 该序列在基因组其他任何区域的匹配度(identi ty ) <85%。 这一步是要保证 探针序列在基因组上的特异性和保守性。

4、 将所有 SNP分为 125,062个连锁群。 将水稻基因组划分为每 100 kb 的区域, 全基因组共被划分为 3,728 个区域。 计算每个区域中的任意两个 SNP的连锁不平衡 r 2 值,利用一种贪婪算法( greedy algorithm )按照 r 2 ≥0.64 将 SNP分组, 共分为 125,062组, 在同一组中的 SNP被认为是冗余的, 称 为一个连锁群。 这一步是要保证挑选的 SNP位点尽可能代表品种的遗传多 样性。

5、 在每个连锁群中挑选 5个 MAF ( Minor Allele Frequency, 最小等位 基因频率 )最大的 SNP位点提交给 Illumina公司 Infmium iSelect打分系统 ( http://www.illumina.com/ )打分, 分值<0.6的位点去掉, 获得 283,451个 SNP。

6、 本发明定义了一个综合打分系统, 考虑 SNP位点的 Illumina iSelect 打分系统分值, MAF, 与同一个连锁群其他 SNP位点 LD的平均 r 2 值和在 基因上的位置。 所有的因素权重参数如下: (1 ) A/T 和 G/C 变化的 SNP

( Infmium I )权重为 0,其他类型 SNP权重为 20( Infmium II X由于 Infmium I检测 1个 SNP需要 2种微珠, Infmium II只需要一种微珠, 为了在芯片上 放置尽可能多的位点, 尽量选择 Infmium II); ( 2 ) Illumina iSelect打分系统 权重为 10 (打分分值反映探针设计的成功率);(3 )最小等位基因频率 MAF 权重为 40 (MAF越高, 在任意两个品种间具有多态性的可能性越大) ; (4) LD的平均 r 2 值权重为 5 ( r 2 值反映 SNP间的连锁程度); ( 5 )根据 SNP在 基因区域的位置, 基因间隔区 (intergenic)、 内含子 (intron)、 启动子

(promoter), 5'端非编码区(5'-UTR)、 3'端非编码区(3'-UTR) 的权重分 别为 1、 1.5、 2、 2和 2.5(根据基因结构不同区域对基因功能影响程 给分), 在编码区造成同义突变 (synonymous), 非同义突变 ( non- synonymous )和 大效应的突变 (如: 终止突变 non-sense mutations ) 的权重分别为 2、 5和 10 (编码区的碱基突变与功能直接相关)。

RICE6K水稻 SNP芯片 (中国发明专利, 201210055775.X)上的高质 量的 4,646个 SNP/INDEL位点和 1000个位于已克隆的水稻重要功能基因上 的 SNP位点直接用于合成 Rice60K育种芯片上的探针, 共获得 58,290个 SNP, 其核苷酸序列如 SEQ ID NO.1-58290所示。 上述 58290个序列均由 101个碱基组成, 并且在第 71位存在碱基变异, 由序列表可知, 在 58290 个序列中, 均在第 71位存在 SNP位点。

按照以上步骤鉴定和筛选, 最后共获得 58,290 个标签 SNP 位点

( tagSNP ), 按照 Illumina Infmium iSelect HD设计要求需要 60,000种微珠

(beads), 所以该芯片命名为 Rice60K。 所有 58,290个标签 SNP位点为序 列表所列的 1~ 58290条 DNA序列。将这些标签序列提交给 Illumina公司设 计制作 Infmium SNP芯片。

本发明提供的 Rice60K基因芯片是利用 Infmium SNP芯片技术制作光 纤微珠芯片(美国专利, US Patent # US 6,429,027 ), 可同时检测 24个样品。 进一步,本发明提供一种制备上述基因芯片的 方法,包括如下步骤: ( 1 ) 通过重测序获得大量水稻品种的基因组序列, 结合公共数据库中的其他水 稻品种重测序数据, 以日本晴基因组为参考序列, 分析鉴定 SNP位点, 从 中挑选出具有代表性的 SNP标记, 直接用于合成探针; 所述 SNP标记其核 苷酸序列分别如 SEQ ID NO.l~ 58290所示; ( 2 )利用 Infmium芯片制造技 术制作 SNP芯片; (3 ) 测试芯片的准确性和应用效率。

具体地, 本发明提供了 Rice60K水稻全基因组育种芯片在检测水稻 DNA样品中的应用, 包括下列步骤:

( 1 )水稻基因组 DNA提取: 根据检测需要从水稻种子、 叶片等组织 抽提基因组 DNA。其中水稻幼嫩叶片 DNA抽提推荐釆用 Promega或 Qiagen 植物基因组抽提试剂盒抽提,水稻种子胚乳 DNA抽提推荐釆用康为复杂植 物基因组抽提试剂盒抽提。

( 2 ) DNA样品质量检测: 用质量分数为 1%的琼脂糖凝胶电泳检测, 用凝胶成像系统判断电泳结果, 保证基因组 DNA 完整性好, 且该基因组 DNA片段长度大于 10 kb; 用紫外分光光度计测量基因组 DNA的浓度, 将 DNA浓度稀释到工作浓度 10-50 ng/μΐ。

( 3 )基因芯片检测: 按照 Illumina Infmium基因芯片检测标准流程操 作。 芯片扫描使用 Illumina HiScan芯片扫描仪。

( 4 )数据分析: Illumina HiScan扫描结果用 GenomeStudio软件分析基 因型, 并用 R语言编程获得基因型比较结果。

进一步地, 本发明提供了上述水稻全基因组育种芯片 Rice60K在水稻 种质资源基因指紋分析中的应用。

本发明提供了上述水稻全基因组育种芯片 Rice60K在水稻杂交后代基 因型鉴定中的应用。

本发明提供了上述水稻全基因组育种芯片 Rice60K在水稻品种鉴定中 的应用。

本发明提供了上述水稻全基因组育种芯片 Rice60K在检测水稻育种材 料中的应用。

本发明提供了上述水稻全基因组育种芯片 Rice60K在水稻全基因组关 联分析中的应用。

本发明与其他分子标记检测系统相比, 具有以下优点和效果:

( 1 )与传统分子标记如 SSR相比, 具有通量高、 单个标记数据成本低 等优势。 利用传统方法在水稻基因组开发 200个多态性 SSR标记已经很困 难, 而 Rice60K育种芯片在检测任意两个品种、 两个籼稻品种、 两个粳稻 品种或一个籼稻品种和一个粳稻品种,分别平 均可以获得约 14,000、 10,000、 8,000、 19,000个高质量的多态性 SNP位点。

( 2 ) 与其他基于基因芯片平台的基因分型系统相比 , 具有重复性好、 通量高、数据分析简单等优势。 Rice60K育种芯片检测水稻样品的技术重复 性能够达到 99.99%以上, 这是目前其他基因分型平台很难达到的。

( 3 )与基于第二代测序平台的基因分型系统相比 具有数据分析简单 和不同实验室数据之间具有可比性等优势。 随着测序技术的发展, 测序成 本不断降低、 测序通量也不断提高。 但是, 测序数据分析的要求也越来越 高, 需要专业的分析软件和生物信息学专业人士才 能分析, 而 Rice60K育 种芯片平台的数据分析非常简单; 测序具有随机性, 不同批次的低覆盖度 测序数据很难进行直接比较, 深度测序成本目前仍然很高, 而 Rice60K育 种芯片上的大部分标记都是固定的, 不同批次数据比较起来非常方便。 然 而, 第二代测序系统产生的大量测序数据为基因芯 片的设计提供了重要的 基础数据。 所以, 第二代测序和基因芯片系统具有互补性。

( 4 )本发明的 Rice60K芯片与之前申请专利的 Rice6K芯片 (中国发 明专利, 201210055775.X )相比具有更广泛的适用性。 l ) Rice60K芯片上 标记挑选涉及到的品种更多、 范围更广。 Rice6K芯片主要是从 520多个水 稻地方品种测序数据中鉴定筛选出来的, 而 Rice60K芯片上的标记来源于 730多个水稻品种, 既包括之前的中国地方品种, 又包括从世界各地收集的 水稻微核心种质资源库中的品种, 还包括中国广泛种植的水稻杂交种的亲 本。 2 ) Rice60K芯片上标记代表的遗传多样性更丰富。 一般来说, 粳稻品 种之间的差异<籼稻品种之间的差异<籼粳 种之间的差异, Rice6K芯片主 要针对籼粳亚种间差异而设计, 亚种内特别是粳稻品种之间的多态性 SNP 所占比例很少。 而 Rice60K育种芯片上的标记尽可能选用水稻亚种 品种 之间, 特别是粳稻品种之间的差异位点, 从而使 Rice60K育种芯片不仅能 够很好地用于检测水稻亚种间的杂交群体, 也能很好地用于检测亚种内的 杂交群体(见实施例 6 ); 3 ) Rice60K芯片上包含了大量功能基因相关位点。 首先, Rice60K芯片上标记挑选倾向于选择基因编码区 SNP位点, 特别 是影响基因功能变化的位点, 如无义突变, Rice6K芯片探针设计时没有这 种考虑; 其次, Rice60K 芯片包含了水稻中已克隆的重要功能基因上的 约 1000个 SNP位点, 而 Rice6K芯片上的功能基因位点很少。 4 ) Rice60K育 种芯片包含了 RICE6K芯片上的高质量的 SNP位点, Rice60K芯片上标记 更多、 在基因组上的分布密度更高。 附图说明

图 1为 Rice60K水稻全基因组育种芯片上 51 ,599个 SNP标记在水稻全基 因组上的分布示意图。 参照基因组为日本晴(TIGR水稻基因组注释 6.1版)。 染色体上的折线表示每 100-kb区域 SNP位点数的连线, 最大值设定为 25 SNP/100-kb, 染色体上的圆点表示着丝粒位置。

图 2为 195份水稻纯合品种基因型聚类图。 以两品种之间基因型差异 位点数占总位点数的比例为距离, 釆用层次聚类分析法对 195个水稻样品 基因型进行聚类, 样品编号为 1-195。 左则为籼稻群, 右侧为粳稻群, 中间 为中间类型。

图 3为 Rice60K芯片检测不同类型水稻获得多态性 SNP数目分布示意 图。 两两品种之间多态性 SNP位点分布直方图。 A图为随机两个品种之间, B图为籼稻和粳稻两个亚种之间, C图为籼稻品种之间, D图为粳稻品种之 间。

图 4为 4个分离群体代表家系基因型示意图。 染色体上的每根线条代 表一个 SNP位点, 灰色表示母本(珍汕 97 )纯合基因型, 黑色表示父本纯 合基因型。 A图为珍汕 97/明恢 63 RIL群体一个家系, B图为珍汕 97/西藏 2号一个家系, C图为日本晴导入珍汕 97的一个导入系, D图为普通野生 稻 ( IRGC- 105491 ) 导入珍汕 97的一个导入系。

图 5为 5份不同来源蜀恢 527样品的 SNP位点分型比较示意图。 图中 灰色线条代表与标准蜀恢 527样品一致的 SNP位点, 而黑色线条为与标准 样品不一致的 SNP位点。

图 6为 Rice6K和 Rice60K芯片对空育 131改良品系 A8遗传背景检测 结果示意图。 图中没有线条的染色体区域为背景回复与受体 亲本空育 131 基因型一致,黑色线条为杂合基因型 SNP位点。三角箭头指示目标基因 3 2 所在位置。 6A为 Rice6K检测结果, 6B为 Rice60K检测结果。

图 7为黄华占谱系的粒宽性状关联分析的曼哈顿 。 具体实施方式

以下实施例用于说明本发明, 但不用来限制本发明的范围。 在不背离 本发明精神和实质的情况下, 对本发明方法、 步骤或条件所作的修改或替 换, 均属于本发明的范围。 若未特别指明, 实施例中所用的技术手段为本 领域技术人员所熟知的常规手段。 实施例 1 Rice60K水稻全基因组育种芯片制备方法

本发明利用 Illumina测序技术对 211个水稻品种, 见表 1。 进行了全基 因组测序, 每个样本获得 2.5倍的基因组覆盖度。 同时, 本发明还从公共数 据库下载了 520个水稻地方品种的测序数据(http://www.ebi.ac. uk/ena/, 登 录号 ERP000106、 ERP000235、 ERP000236 ), 每个样本 1倍的基因组覆盖 度 ( Huang等 , Genome-wide association studies of 14 agronomic traits in rice landraces. Nat Genet. 2010, 42: 961-967 )。总共 731个水稻品种基因组测序数 据。 按照以下步骤鉴定和筛选 SNP。 表 1 211个水稻品种名称

名称 编号 ¾

Sadu-cho 72 142 魔王谷内 -1

Dom Sufid 73 143 齐头谷

Gerdeh 74 144 黄皮糯 丽江新团黑谷 75 145 珍汕 97B-2

AZUCENA 76 146 日本晴 三黄占 2号 -1 77 147 明恢 63 三黄占 2号 -2 78 148 93-11

Swarna 79 149 中花 11

MOROBEREKAN 80 150 巴利拉

CYPRESS 81 151 南京 11

WH11 82 152 02428 台农 67 83 w W W W麻麻本本饭梅梅香魔香饿木铁小金金红八红 黄齐旱七细南寸黑高赤立南湘毫三鱼闷山 153 IRAT109 麻麻麻瓜督花花加矮特死新粒糯红谷补酒秆溪 王早壳邦邦头壳高百月壳南毫眼

N 22 84 gm m m包麻三阳 n n 154 黑粳 2号

M202 皮粳j银谷糯粒籼糯谷折谷^特籼粒牛早淀卡号 寸高线 ώ ¾ g S S 4 i- r,

85 155 二九南 1号

Dular 86 ^号 156 朝阳一号 B 老光头 83 87 157 L301B 安农晚粳 B-l 88 158 广陆矮 15 安农晚粳 B-2 89 159 竹珍 B 矮脚南特 90 160 包协 -7B 广陆矮 4号 91 161 G珍汕 97B 湘矮早 10 92 162 南雄早油 金南特 B 93 163 早熟香黑 抚宁紫皮 94 164 IR661-1 珍汕 97B 95 165 南京 11号 -2 青四矮 16B 96 166 圭 630 卫国 97 167 76—1 滇瑞 409B 98 168 须谷糯 辽粳 287 99 169 台中在来 1 湖恢 628 100 170 湘晚籼 1号

88B-1 101 171 兴国

88B-2 102 172 中花 8号 隆化毛葫 103 173 矮麻抗 陆财号 104 174 JWR221 中楼一号 -1 105 175 镇籼 232 叶里藏花 106 176 郴晚 3号 蜀丰 101 107 177 麻谷子 成都矮 3号 108 178 矮密 三颗寸 109 179 毫巴永 1 公居 73 110 180 万利籼 加巴拉 111 181 肥东塘稻 台山糯 112 182 横县良春 桂朝 2号 113 183 雷火占 43 沪科 3号 4 84

44 特青选恢 85

45 黄丝桂占 6 6

46 湘晚籼 3号 7 7

47 旱麻稻 -2 8 8

48 早熟农虎 6 9 9

49 金优 1号 20 90

50 成农水晶 21 B 91

51 培 C122 22 92

52 桂花黄 23 93

53 墨米 24 94

54 秀水 115 25 95

55 三百粒 26 96

56 晋稻 1号 97

W W柳 g黎水矮解矮香红金木冷古献五细泽江宣寸乌 宁闷台白

57 丹东陆稻 98

£ m B加放禾枝瓜水农原旗糯谷谷东子沱壳恩高叶 明改陝白

58 柳沙 1号 29 花粘迟粘谷籼长糯糯堆糯谷红谷早陆丁 ¾ B 42 135 99

i ^ 5 ^ I

59 霸王鞭 1 30 o稻坛螺号 2 o 1 1 00

60 洞庭晚籼 31 粒号 01

61 扬稻 2号 02

62 WH62 03

63 粳 87-304 4 204 HD9802S

64 苏粳 2号 205 Y58S

65 红晚 1号 6 206 空育 131

粘昏葡红小马紫背秕早油乌毫三阳鱼一闽中白

66 六十早 7 207 广稻粘磅农北尾糯支籼马萄米子五壳壳壳壳眼 白占 63-4S

67 木樨球 8 208 B5 粘香糯糯糯糯早克七黄升米晚三占 4

68 台中籼选 2 9 209 稻花香禾 ^籼担十号<

K箩

69 当育 5号 40 谷 210 粤香占

70 有芒早粳 41 -1 211 X珍汕 97B

71 老虎种

1、从 731个水稻品种测序数据中鉴定出 3,791,687个高质量 SNP位点。 高质量的 SNP位点满足以下条件: (1 )按照该位点碱基组成比例由大到小 排序, 第二种碱基的频率≥5%; ( 2 )拥有第三种碱基的样本的数目<10个, 并且频率<2.5%; ( 3 )杂合基因型频率 <5%; ( 4 )该 SNP位点位于非重复区 域。

2、 提取 731个水稻品种中上述 SNP位点的基因型, 并利用 LD-KN 算法( K最邻近算法, K nearest neighbors )对 SNP基因型缺失值进行填补。 有 3,679,919 个 SNP位点能够进行基因型缺失值的填补。 这些位点填补后 满足以下条件: (1 )缺失值的比例 <50%; ( 2 )在水稻基因组的 100 kb的区 域至少能够找到一个连锁的 SNP , 即 LD ( Linkage disequilibrium , 连锁不 平衡)的 r 2 值( r为等位基因频率相关系数, Correlation Coefficient )≥0.25。

3、 经过第一次初筛获得 2,651,614个 SNP位点。 对于每个 SNP, 提取 曰本晴、 珍汕 97、 明恢 63的 SNP位点两侧 50 bp序列, 任意一侧序列满足 下列条件的 SNP位点保留: (1 ) 日本晴和珍汕 97或者日本晴和明恢 63序 列一致; (2 )该序列在基因组其他任何区域的匹配度 (identity ) <85%。

4、 将所有 SNP分为 125,062个连锁群。 将水稻基因组划分为每 100 kb 的 bin (小区段 ), 全基因组共被划分为 3,728个 bin。 计算每个 bin中的任 意两个 SNP的连锁不平衡 r 2 值, 利用一种贪婪算法( greedy algorithm )按 照 r 2 ≥0.64将 SNP分组, 在同一组中的 SNP被认为是冗余的。

5、 在每个连锁群中挑选 5个 MAF ( Minor Allele Frequency, 最小等位 基因频率 )最大的 SNP位点提交给 Illumina公司 Infmium iSelect打分系统

( http://www.illumina.com/ )打分, 分值 <0.6的位点去掉。

6、 本发明定义了一个特殊的综合打分系统, 考虑 SNP位点的 Illumina iSelect打分系统分值, MAF, 与同一个连锁群其他 SNP位点 LD的平均 r 2 值和在基因上的位置。 所有的因素权重都是通过经验确定参数的, 参数如 下: ( 1 ) A/T 和 G/C 变化的 SNP ( Infmium I )权重为 0, 其他类型 SNP权 重为 20 ( Infmium II ); ( 2 ) Illumina iSelect打分系统权重为 10; ( 3 )最小 等位基因频率 MAF权重为 40; ( 4 ) LD的平均 r 2 值权重为 5; ( 5 )根据 SNP 在基因区域的位置, 基因间隔区 (intergenic )、 内含子 (intron )、 启动子

( promoter ), 5'端非编码区(5'-UTR )、 3'端非编码区(3'-UTR ) 的权重分 别为 1、 1.5、 2、 2和 2.5 , 在编码区造成同义突变 (synonymous ), 非同义 突变 ( non- synonymous )禾口大效应的突变 (如:终止突变 non- sense mutations ) 的权重分别为 2、 5和 10。

RICE6K水稻 SNP芯片 (中国发明专利, 201210055775.X )上的 4,646 个高质量的 SNP/INDEL位点和 1000个位于已克隆的水稻重要功能基因上 的 SNP位点直接用于合成 Rice60K育种芯片上的探针。 按照以上步骤筛选和鉴定, 最后共获得 58,290 个标签 SNP 位点 ( tagSNP ), 按照 Illumina Infmium iSelectHD设计要求需要 60000种微珠 ( beads )。所有 58,290个标签 SNP位点见序列表所列的第 1~ 58290条 DNA 序列。 将这些标签序列提交给 Illumina公司设计制作 Infmium SNP芯片。 芯片制作得到符合检测要求的有效位点为 51,599个, 这些位点在全基因组 上的分布如图 1所示。 实施例 2 Rice60K水稻全基因组育种芯片在检测水稻 DNA样品中的应用 水稻基因组 DNA提取: 根据检测需要从水稻种子、 叶片等组织抽提基 因组 DNA。 其中水稻幼嫩叶片 DNA抽提推荐釆用 Promega植物基因组抽 提试剂盒(Wizard Magnetic 96 DNA Plant System Kit, 货号 FF3760 或 FF3761 , 北京普洛麦格生物技术有限公司)抽提, 水稻种子胚乳 DNA抽提 推荐釆用康为复杂植物基因组抽提试剂盒 (SurePlant DNA Kit , 货号 CW0555 , 北京康为世纪生物科技有限公司 )抽提。

DNA样品质量检测: 用质量分数为 1-1.5% ( W/W )的琼脂糖凝胶电泳 检测, 用凝胶成像系 ( Gel Doc XR System, 美国 Bio-Rad公司) 统判断电 泳结果,保证基因组 DNA完整性好,且该基因组 DNA片段长度大于 10 kb; 用微量紫外分光光度计(Q5000, 美国 Quawell公司 )或类似的核酸蛋白测 定仪测量基因组 DNA的浓度, 将 DNA浓度调整到工作浓度 10-50 ι¾/μ1。

基因芯片检测: 按照 Illumina Infmium基因芯片检测标准流程操作 ( Infmium HD Assay Ultra Protocol Guide , http ://www. illumina. com/ )。 芯片 扫描使用 HiScan芯片扫描仪( HiScan, 美国 Illumina公司)。

数据分析: Illumina HiScan 扫描结果用 GenomeStudio 软件 ( http://www.illumina.com/ ) 分 析 基 因 型 , 并 用 R 语 言 ( http://www.r-project.org/ )编程获得基因型比较结果。 实施例 3 Rice60K水稻全基因组育种芯片在水稻种质资源 因指紋分析中 的应用

本发明利用 Rice60K育种芯片对微核心水稻种质资源 270个品种,编号 为 WCR001~270, 来自中国种子集团有限公司。 参照实施例 2的方法进行 了检测, 根据检测结果挑选其中的 195份具有代表性的纯合自交品种进行 分析。 根据 Rice60K育种芯片检测基因型, 对这 195个品种进行聚类分析, 可以分为三类: 籼稻、 粳稻和中间类型 (见图 2 ), 与根据表型的分类非常 吻合。 任意两个品种之间、 籼稻与粳稻之间、 籼稻与籼稻之间以及粳稻与 粳稻之间多态性 SNP数目分别平均约为 14,000、 19,000、 10,000和 8,000(见 图 3 )。 该结果表明, Rice60K育种芯片上的 SNP标记位点具有广泛的适用 性,即使对于差异小的粳稻品种之间也能很好 的检测和区分。所以, Rice60K 育种芯片非常适合用于建立水稻品种基因指紋 数据库, 方便育种家查询和 比较品种之间的亲缘关系, 帮助育种家选择育种材料。 实施例 4 Rice60K水稻全基因组育种芯片在水稻分离群体 因型鉴定中 的应用

本发明利用 Rice60K芯片检测了 2个重组自交系 ( RIL, Recombination inbred line )群体——珍汕 97/明恢 63 RIL群体、珍汕 97/西藏 2号 RIL群体, 和 2个染色体片段代换系 ( CSSL, Chromosome segment substitution line ) 群体——日本晴导入珍汕 97的导入系、 普通野生稻 (IRGC-105491 ) 导入 珍汕 97的导入系的基因型 (参见实施例 2方法进行), 每个群体其中一个 家系的基因型图谱如图 4所示。 该图显示, 对于不同的群体, Rice60K芯片 都具有很好的基因分型效果, 标记密度高、 重组断点清晰。 Rice60K芯片不 仅能够检测到传统分子标记如 SSR没能检测到的双交换区域, 并且由于标 记密度高, 检测结果更精确、 更可靠。 该结果表明, Rice60K水稻全基因组 育种芯片作为一个分子标记检测系统, 能够很好的对水稻杂交后代分离群 体进行基因分型。 实施例 5 Rice60K水稻全基因组育种芯片在水稻品种鉴定 的应用

本发明收集了巿场上的 4种标为蜀恢 527的种子 (A、 B、 C、 D ), 它 们从表型上无法区分, 另外还从蜀恢 527培育单位四川农业大学收集了标 准蜀恢 527材料用作对照。 利用 Rice60K水稻全基因组育种芯片对这 5份 样品进行了检测 (参见实施例 2方法进行)。 根据检测结果, 比较 4种巿场 购买的蜀恢 527种子与对照基因型的差别。 蜀恢 527经过多年的培育可以 认为是纯合的亲本,去掉基因分型为杂合的位 点和 GenTrain Score <0.6的位 点, 最后得到 38,310个高质量的 SNP标记位点。 5份样品基因型比较如图 5所示。 从结果中可以看到 A和 D与培育单位的蜀恢 527是一致的, 而 B 和 C与蜀恢 527约有 4%的基因型的不同, 可以认为 B和 C非蜀恢 527品 种。该结果表明, Rice60K基因芯片能够很好地应用于水稻品种真 性鉴定, 鉴定结果准确可靠。 实施例 6 Rice60K水稻全基因组育种芯片在水稻育种材料 传背景分析 中的应用

为了测试 Rice60K育种芯片在水稻育种材料遗传背景分析 的应用效 果, 本发明对水稻品种空育 131及其改良品系 A8进行了检测(参见实施例 2方法进行)。 A8材料为回交 4次 BC4F1世代中的一个单株, 目标基因为 水稻稻瘟病抗性基因 Pi2 ( Zhou等, The eight amino-acid differences within three leucine-rich repeats between Pi2 and Piz-t resistance proteins determine the resistance specificity to Magnaporthe grisea. Mol Plant Microbe Interact. 2006, 19: 1216-1228. )„ 与受体亲本空育 131相比, A8的遗传背景如图 6所 示。从图中可以看出,该植株除了导入了第 6染色体上的 ¾基因及其附近 很大的片段外, 在第 1和 12 染色体至少还有 3个供体片段。 RICE6K芯片 和 Rice60K芯片都能很好的检测 Pi2基因及其附近区域, 但是在检测其他 背景时 Rice60K芯片效果明显比 RICE6K芯片好。 受体亲本空育 13 1为粳 稻, 而供体亲本 ¾基因及其附近区域为籼稻片段, 其他位置为粳稻背景。 由于 RICE6K芯片主要针对籼粳杂种应用而设计, 所以在检测粳稻之间杂 种时多态性比较低, 而 Rice60K育种芯片由于标记密度大大增加, 探针设 计时兼顾了粳稻品种之间多态性, 所以能很好地检测粳稻之间的杂种。 由 此可见, Rice60K水稻全基因组育种芯片在育种材料遗传 景分析中具有很 好的效果。 实施例 7 Rice60K水稻全基因组育种芯片在水稻关联分析 的应用 收集了黄华占及其谱系品种共 21 个并调查了其重要农艺性状粒宽数 据, 分析了黄华占及其谱系品种基因组的变化与粒 宽之间的关联。 对 Rice60K芯片得到的基因分型结果(参见实施例 2方法进行 )进行质量控制 并筛选得到高质量的基因分型信息。 去除在样本中 GenTrain Score <0.6的 SNP 位点, 因为这些位点由于可靠性差无法用于进一步的 数据分析。 进一 步去除在这 21个品种中缺失率大于 0.2的位点, 缺失位点由于数据的损失 无法很好地用于进一步的数据分析过程,最终 得到 42,387个 SNP标记位点。 根据所收集的水稻种子的粒宽性状和所获得的 SNP 标记位点进行关联分 析, 得到曼哈顿图如图 7所示。 经过分析染色体上有 5处位点具有显著的 关联性, 定位到得染色体 2号区域包含已知的 基因, 染色体 3号区域 包含已知的 基因和染色体 5号区域包含已知的 基因, 6号染色体 和 10号染色体上的 QTL则为新的可能调控位点。 因此, 通过 Rice60K SNP 芯片鉴定基因型可以以高密度的分型数据得到 比较精确的关联分析结果。

虽然, 上文中已经用一般性说明及具体实施方案对本 发明作了详尽的 描述, 但在本发明基础上, 可以对之作一些修改或改进, 这对本领域技术 人员而言是显而易见的。 因此, 在不偏离本发明精神的基础上所做的这些 修改或改进, 均属于本发明要求保护的范围。 工业实用性

本发明的芯片是基于 Infmium 芯片制造技术制作的 SNP 芯片, 包含 58,290个 SNP位点, 可以对水稻品种资源进行分子标记指紋分析、 对杂交 群体后代进行基因型鉴定、 对品种真实性进行鉴定、 对育种材料遗传背景 进行分析和筛选、 对农艺性状进行关联分析, 具有重要的经济价值和应用