玉米群体构建_q1088玉米简介

(97) 2024-06-02 11:01:01

本文内容主要摘自下面 3 篇文章:第一篇介绍了 NAM 群体的 构建 及玉米基因组的 重组特征;第二篇介绍了 计算机模拟 下 NAM 群体挖掘 QTL 的 效力;第三篇介绍了 NAM 群体的 应用,使用 NAM 群体挖掘与 花期 相关的 QTL 及特征;

Genetic Properties of the Maize Nested Association Mapping Population,Michael D. Edward S. Buckler,Science,7 Aug 2009,doi: 10.1126/science.1174320
Genetic Design and Statistical Power of Nested Association Mapping in Maize,Yu J, Holland JB, McMullen MD, Buckler ES,Genetics,2008 Jan,doi:10.1534/genetics.107.074245
The genetic architecture of maize flowering time. Buckler ES, Holland JB, Bradbury PJ, et al,Science,7 Aug 2009,doi:10.1126/science.1174276

NAM 步骤

  1. 选择遗传信息差异较大的亲本(Founders)构建作图后代 ,本文使用 26 个亲本构建了 5000 个重组自交系(RIL)。
  2. 亲本 进行 高密度 的 SNP 基因型测定,得到亲本的高密度遗传图谱。注意,这里的 SNP 都是位于 基因 区间内。
  3. 后代 进行 低密度 的 SNP 基因型测定,低密度 SNP 是高密度的子集。利用染色体片段的遗传性,将亲本的高密度 SNP 信息映射到后代上,实现较少的费用获得高密度 SNP 信息。
  4. 测定后代的各种复杂性状的 表型值
  5. 利用后代的表型与高密度基因型,实现高分辨率的 关联分析

NAM 优点

  1. 标记应用广。玉米不同品系间遗传差异巨大,不同家系间相同 SNP 的连锁片段遗传信息不同。所以原先构建的玉米遗传资源群体,如 B73 × Mo17(intermated B73-by-Mo17 cross,IBM)群体(Lee,2002),由于亲本种类少,IBM 群体中挖掘到的标记资源难以推广到其他亲本构建的后代群体中,即 IBM 群体仅 捕获 了 2 种亲本的 遗传多样性 。NAM 群体由 26 个亲本构建,挖掘出的 SNP 是在 25 个家系中都展现出了对表型的影响,即捕获了 26 种遗传信息差异较大的玉米株系的遗传多样性,绘制出的遗传图谱具有高度的可 推广性 与应用价值。
  2. 标记密度高。定位分析中若 SNP 基因型在双亲中 相同 ,则此标记 无效。NAM 群体使用了 26 种 遗传差异较大 的株系,出现 SNP 在所有亲本中基因型相同的概率很低。相比 2 个亲本的连锁定位方法,NAM 中 有效 SNP 的密度更高 。如 IBM(B73 × Mo17,2002 年构建)群体中总共有 190 个有效 RFLP 标记位点,覆盖了全基因组 1784.7 cM 的区间,标记平均密度为 9.4 cM;NAM 群体中总共有 1106 个 SNP 标记位点,标记平均密度为 1.3 cM。注意,SNP 来源是 cDNA,所以 NAM 群体 1106 个 SNP 标记标定了 1106 个 基因。虽然遗传多样性广泛的群体会加速 LD 的衰减,如自然群体中玉米的 LD 在 2 kb 区域内衰减,但铆钉在基因上(玉米基因长度较短)可以有效避免标记的无效化。
  3. 低费用、精定位、高效力。连锁定位因为重组次数有限,所以只能进行 QTL 粗定位,使用高密度 SNP 是冗余的。关联定位因使用自然群体,包含了历史上重组与突变,群体内 LD 衰减快,可以用于 QTL 精定位,但所需分子标记密度较高。由于当时基因分型的 费用昂贵,所以一般关联定位仅由于研究特定候选基因,无法用于全基因组挖掘 QTL。另一方面,数量性状受多个 QTL 共同影响,不同玉米亚种内的 QTL 组合是不同的。这些组合是 群体结构 的基础,但关联定位 无法打破 亚种内的 QTL 组合,QTL 挖掘会受到群体结构影响。NAM 结合连锁定位中群体构建的思想,利用亲本株系的 纯合背景 与群体构建过程中 有限的重组,先测定 高密度 的亲本 SNP 基因型,再通过子代的 低密度 SNP 进行 映射大幅降低 了子代基因分型的 费用,得到了大量高密度的 RILs,满足了对 RILs 进行关联分析的条件。同时,连锁分析有效打破了群体结构,减少后续关联分析中群体结构的影响,提高了挖掘 QTL 的效力。综上,作者认为 NAM 群体结合了连锁分析与关联分析的优点,提高了挖掘 QTL 的精度、效力,并且降低了费用。
  4. 挖掘稀有突变。玉米稀有 QTL 较多,许多与表型变异相关的突变仅能在 1 个家系中分离, 剩余家系中均不包含此等位基因型。NAM 群体为研究稀有 QTL 提供了可能性:1)NAM 数量较大;2)NAM 支持 分家系研究,可排除群体结构影响,较准确的确定稀有 QTL 的效应。如 Q 位点的 Q 1 Q_1 Q1 基因型仅存在于 P39 家系中时,可研究的群体大小为 200,同时 Q 2 Q_2 Q2 表型不用与其他家系做 平均 而引入 无关变量。单纯的关联分析对稀有突变的挖掘能力较低,一方面是稀有突变个体少,表型未必准确;另一方面,野生型表型的测量无法通过家系避免群体结构的影响。
  5. 无效子代少。25 个亲本与共同亲本 B73 杂交,可以 缩小 子代的 表型方差,避免子代表型之间不具有可比性。尽管此方案在遗传信息组合方面不是最有效的,但出于农艺和生理方面的考虑,将 多样化 的亲本与 优良本地种(在美国种植性状优异的)亲本 B73 杂交,可以使庞大种群的构建与性状评估在温带环境中变得切实可行(Hallauer et al.,1988 年)。如开花所需积温量表型,热带个体所需积温值高,热带自交系 A 与热带自交系 B 杂交, F 2 F_2 F2 表型分离后会出现所需积温更高的子代个体,可能在实验田环境中无法开花,进而导致后续很多表型不可测。因为 25 个亲本来源广泛,包含热带、温带、甜玉米、爆裂玉米,后代表型不可控,而构建 NAM 又需要花费大量的时间与精力,所以为了保证群体可以挖掘到更多性状的 QTL,统一和 B73 杂交,适当缩小子代表型方差,避免无效子代占用各种资源。
  6. 可重复、资源平台。NAM 构建出的 RILs 遗传信息稳定。1)可以种植多个基因型相同的样本,利用平均表型 降低非遗传因素对表型的影响;2)可以在不同年份、不同地点重复种植,将性状在不同环境下的表型差值作为表型值,研究对环境敏感的 QTL;3)RILs 提供了一个 遗传资源平台,有助于后续研究者在此平台上不断添砖加瓦。

Lee, M., Sharopova, N., Beavis, W.D. et al. Expanding the genetic map of maize with the intermated B73 × Mo17 (IBM) population . Plant Mol Biol 48, 453–461 (2002). https://doi.org/10.1023/A:1014893521186
Hallauer, A. R., W. A. Russell and K. R. Lamkey, 1988. Corn breeding, pp. 463–564 in Corn and Corn Improvement, edited by G. F. Sprague and J. W. Dudley. American Society of Agronomy, Madison, WI.

基本信息

材料

NAM(Nested Association Mapping)由 B7325 个株系(25 diverse lines,25 DL)杂交得到的 5000 个重组自交系(RILs)构成。其中 25 个亲本株系包括 13 个热带品系、9 个温带品系、2 个甜玉米品系、1 个爆裂玉米品系(pop corn),选自 302 个从全世界范围内收集的自交系。每个亲本与 B73 杂交,得到 25 个 家系(family), F 1 − F 5 F_1-F_5 F1F5 使用 单粒传法(single seed descent,SSD,概念参见 附录)自交,在 F 5 F_5 F5 代每个家系中收获 200 个种子( S 5 S_5 S5),总共收获 5000 个种子(下图)。

在测定 SNP 后,66 个 RILs 因其 F 1 F_1 F1 中基因型与预期不符而移除,63 个 RILs 因基因型中出现了非亲本基因型而移除,82 个 RILs 因杂合率过高(>8%)而移除,90 个 RILs 因 SNP 检测中信号强度过低而移除,最终留下 4699 个 RIL 来绘制 NAM 群体的遗传图谱。

PS:因为 Mo17 与 B73 杂交的群体 IBM 已经十分成熟,所以 25 个亲本中没有 Mo17。

玉米群体构建_q1088玉米简介 (https://mushiming.com/)  第1张
玉米群体构建_q1088玉米简介 (https://mushiming.com/)  第2张

SNP

为保证 B73 与 25 DL 间遗传较大,选择在 B73 中为 次等位基因型 的 SNP。根据已有玉米数据库(Maize Diversity Project database)中的 cDNA 数据,本研究选择了 1536 个 SNP,其中 974 个选自 随机基因,329 个选自与农艺性状可能相关的 候选基因,233 个由杜邦先锋公司(Pioneer Hi-bred International)提供。经过质量控制,325 个 SNP 被淘汰,1211 个 SNP 用于绘制 NAM 群体的遗传图谱。注意,SNP 来源是 cDNA,所以 NAM 群体 1211 个 SNP 标记标定了 1211 个基因。

对大量子代进行高密度的 SNP 基因分型是十分昂贵的,但 NAM 由于亲本株系的 纯合背景 与群体构建过程中 有限的重组,使 RIL 基因组的每个片段都 可溯源。如果 RIL 中一定范围内两个 SNP 的基因型都与 B73 相同,则可以推断此片段遗传自 B73,此时两个 SNP 之间的 SNP 基因型可以直接根据 B73 的基因型预测出来。如果相邻的 CPS 标记来自不同的亲本,则根据其遗传距离在该区域内模拟重组事件,并相应地进行等位基因分配。所以,作者先测定了高密度的亲本 SNP 基因型,然后再 映射 到子代上,大幅降低了子代基因分型的费用,得到了大量高密度的 RILs,提高了全基因组关联分析的准确性与挖掘低效应 QTL 的效力。

下图摘自 Genetic Design and Statistical Power of Nested Association Mapping in Maize,此文中选用了 1331 个 SNP。图 a 显示测定亲本和子代 678 个 SNP,估算 RIL 基因组中各片段的来源;图 b 显示测定了亲本全部 1331 个 SNP 的基因型,通过图 a 中的关系预测 RIL 基因组中所有 SNP 的基因型。

玉米群体构建_q1088玉米简介 (https://mushiming.com/)  第3张

模拟

因为 NAM 群体不涉及对照,作者通过 计算机模拟 来评估 NAM 群体挖掘 QTL 的效力。

为了确定不同 映射 SNP 密度 下 RIL 中预测基因型的准确率,验证预测基因型的可信度,作者进行了模拟实验。结果显示,当亲本和子代中 映射 SNP 密度 > 2.5 cM 时,映射的准确度会出现略微降低。因此,作者确定了 678 个映射 SNP,实现了平均密度 2.5 cM 。此外,作者还模拟了不同 QTL 数量(20 / 50)、遗传力(0.4 / 0.7)、SNP 数量(678 / 1331)、RIL 数量(625 / 1250 / 2500 / 5000) 、显著性阈值 1 0 − 5 10^{-5} 105 / 1 0 − 7 10^{-7} 107 / 1 0 − 9 10^{-9} 109)、QTL 加性效应 条件下,测定挖掘 QTL 的效力。

表型值 y = b 0 + ∑ b i x i + e y=b_0+\sum b_ix_i+e y=b0+bixi+e,其中 b i b_i bi 表示第 i i i 个标记位点的加性效应大小, x i x_i xi 表示第 i i i 个标记位点的基因型。模拟部分结果如下图所示(其他模拟结果参见原文),其中 CPS markers only for RILs 表示仅测量 RILs 的 678 个映射 SNP 的基因型,剩余 SNP 的基因型预测得到。可以发现,映射方法对挖掘 QTL 效力的影响可以接受。

玉米群体构建_q1088玉米简介 (https://mushiming.com/)  第4张

NAM 遗传图谱

最终,在 NAM 的复合图谱(composite map)中包含了 1106 个 SNP,平均标记密度为 1.3 cM(centimorgans,厘摩)。其中每个家系内具有多态性的 SNP 位点(polymorphic SNP)的比例范围为 63% - 74%。在 RIL 中,48.7% 的标记基因型遗传自 B73,47.6% 遗传自 25 DL,3.6% 是杂合子。NAM 群体捕获了约 13.6w 个交叉事件。NAM 群体同染色体内 SNP 之间的 LD 极低,平均 r 2 = 0.04 r^2=0.04 r2=0.04

重组率研究

Science 文章主要介绍了作者在 NAM 群体遗传资源谱图绘制完成后对重组问题的研究,讨论了 NAM 群体理论与实际的偏离情况。

  1. 重组率在 25 个家族中存在 较大差异,最大差异超过 30 倍。作者尝试寻找控制基因组重组率的 QTL,但没有找到对全部 25 个家族重组率都有影响的 QTL,也没有找到对整个基因组重组率有影响的 QTL ,只发现了对特定家族特定区间的重组率有影响的 QTL,即 QTL 的效应是局部的。可能有专门重组热点的序列,当区间内包含此序列时,区间重组率提高。
  2. 子代染色体部分区间内存在 偏向性(下图),可能与表型选择有关。如甜玉米品系 IL14H 和 P39 在 4 号染色体的 sugary1 (su1) 等位基因会导致甜玉米表型,但也会导致发芽活力的降低,故 B73 遗留下来的片段占比较高;如 Hp301 品系中 Ga1-S 等位基因型的个体会拒绝 ga1 基因型的花粉,所以子代 Ga1-S 基因型比例不断增加,ga1 比例不断降低。
  3. 着丝粒 附近标记 杂合性(4.1%)显著(P < 0.0004)高于整体(3.2%)。根据希尔-罗伯森(Hill-Robertson)效应,同源染色体上的有利基因互斥,有限的重组无法将多个有利基因整合至同一染色体上,所以会以杂合形式存在。作者认为着丝粒附近杂合率高可能是重组率低的结果,有限代数内无法通过重组将两个亲本的优势基因组合到一条染色体上,进而只能以杂合子形式存在,每条染色体上包含各亲本的优势基因。据此,作者认为上述结果可能是 杂种优势 的一种解释。

玉米群体构建_q1088玉米简介 (https://mushiming.com/)  第5张

图中红色表示热带株系,灰色水平线表示 1 到 10 号染色体边界位置。

开花时间研究

DS,days to silking,female flowering,发育至雌蕊开花(吐丝)所需天数
DA,days to anthesis,male flowering,发育至雄蕊开花(开花)所需天数
ASI,anthesis-silking interval,开花与吐丝之间的间隔天数

作者通过对开花时间表型的相关研究,说明玉米中开花时间表型 QTL 的特征,并证明 NAM 群体挖掘 QTL 的能力。

开花时间表型 QTL 特征

  1. DS、DA、ASI 表型 遗传力高,分别为 0.94、0.94、0.78。通过 NAM 群体的关联分析,作者找到了 36、39、29 个分别与 DA、DS、ASI 有关的 QTL,分别解释了 89%、89%、64% 的变异。上位性和环境等因素对表型影响较小,能够通过基因型比较准确的预测表型。
  2. 每个 QTL 效应较小,下图 A 是按照 QTL 效应大小进行统计,表示 39 个 DA 的 QTL 在 25 个家系内的效应大小(以 B73 DA=39 为基准),总计 975(25 × 39)个等位基因,其中只有 7(2.1%)个等位基因的效应 >1 day。但拟南芥、水稻、大麦、高粱等植物中与开花时间相关的 QTL 效应较大。图 B 显示了不同家系间 DS 表型的差异是由大量小效应 QTL 积累的结果,而非少数大效应 QTL 所导致的。柱高表示多个 QTL 效应的积累值,柱上数字表示 QTL 数量。如 P39 中延长 DS 的 QTL 总计有 6 个,累积效应约为 3 days,缩短 DS 的 QTL 总计 12 个,累积效应约为 -6 days 。

玉米群体构建_q1088玉米简介 (https://mushiming.com/)  第6张

  1. 没有发现特定 QTL 的等位基因型与纬度相关,这说明群体结构并非由某些特定 QTL 所决定,而是许多 QTL 的 无规律 组合,最终实现 QTL 的累加效应适应当前环境。
  2. 玉米 稀有 QTL 较多。作者发现许多与表型变异相关的突变仅能在 1 个家系中分离, 剩余家系中均不包含此等位基因型。NAM 群体为研究稀有 QTL 提供了可能性:1)NAM 数量较大;2)NAM 支持 分家系研究,可排除群体结构影响,较准确的确定稀有 QTL 的效应。如 Q 位点的 Q 1 Q_1 Q1 基因型仅存在于 P39 家系中时,可研究的群体大小为 200,同时 Q 2 Q_2 Q2 表型不用与其他家系做 平均 而引入 无关变量。统计结果显示,玉米开花表型受共有 QTL 和稀有 QTL 共同影响。

NAM 挖掘 QTL 效力评估

作者研究了已知与开花时间相关 QTL,vgt1(vegetative to generative transition 1)。vgt1 位于 rap2.7 基因(开花相关)上游 70kb 处的增强子序列上,当 vgt1 包含 MITE 结构时,开花时间会提前。本研究中作者首选确定了 vgt1 QTL 在 NAM 群体中依然对开花时间有影响(DA: P = 4 × 1 0 – 44 P=4×10^{–44} P=4×1044,DS: P = 7 × 1 0 – 40 P=7×10^{–40} P=7×1040)。然后克隆了此区间,发现当 vgt1 包含 MITE 结构时(下图蓝色系),开花时间会提前,与前人研究一致,但无法解释 non-MITE 区为何会延迟开花时间。为此,作者克隆了 rap2.7 基因,发现了两种基因型,当品系包含突变型时(下图红色系),开花时间会延迟。

玉米群体构建_q1088玉米简介 (https://mushiming.com/)  第7张

育种应用

开花期 QTL 具有以下特征:

  1. 对于数量性状的研究,QTL 数量较多,掌握全部基因的功能在时间和精力上是不允许的。
  2. 实验无法严格的控制变量,复杂性状的研究必然伴随大量不可控因素,所以很多基因的效应 难以准确测量
  3. 小效应 QTL 可能 难以应用 到优良玉米品系中,与其良好兼容并展现出预期的表型,但花费的时间与精力是巨大的。如 5 号染色体上基因 X 对表型的影响为 1 %,序列分析预测其蛋白包含内质网定位结构域,同源基因证明在其他物种中被定位在内质网模上。最终,实验证明基因 X 可能与内质网的吞吐效率有关,进而影响到了植物的株高。此时基因 X 的位置、功能、效力都研究明了,但对作物的实际价值微乎其微(1%),而且从研究群体推广到已有品系后的效力难以确定,可能毫无作用。如 Tian J 等人发现的叶夹角基因无法应用在已有的优良品系中。

所以对于育种而言,研究大效应 QTL 的生物学功能即可,探究小效应 QTL 的功能是非必要的。利用已有遗传信息与表型预测未知表型是育种的重点,而非研究生物学功能。

Tian J, Wang C, Xia J, et al. Teosinte ligule allele narrows plant architecture and enhances high-density maize yields. Science. 2019;365(6454):658-664. doi:10.1126/science.aax5482

附录

单粒传法(single seed descent,SSD)

每株只取一两粒种子混合组成下一代群体,先加速纯合化进程后进行个体选择的杂种后代处理方法。

使杂种群体控制在数百株以内,每株结实不多,不进行选择或只进行微弱选择,成熟时每株随机取一或二粒种子混合组成下代群体。如此进行数代,直到纯合化达到要求时( F 5 F_5 F5 F 6 F_6 F6 代)再按株(穗)收获,下年种成株(穗)行,从中选择优良株(穗)系。

THE END

发表回复