资讯

Nature Plant | 全基因组重测序新用法:物种之间的比较基因组

2021-02-19 13:38

前言

高粱和玉米有相近的进化史,可以通过比较基因组学来研究。为了对这两个物种的基因组变异进行大规模比较,研究者分析了499个高粱品系的全基因组重测序(WGS)鉴定出的1300万个变异及以前在1218个玉米品系中鉴定出的2500万个变异。在这两个物种中,有害突变普遍存在于中心粒周围区域,在不同染色体上基因中富集,而等位基因中频率较低。高粱和玉米的有害负荷比较表明,与玉米相比,高粱背离了驯化成本假说,即驯化后的有害负荷高于野生系。利用高粱和玉米群体遗传汇总统计数据预测一个基因有害指数,其准确率大于0.5。这项研究代表了理解高粱有害变异的进化动力学的关键一步,并提供了一个比较基因组学框架以通过基因组编辑和育种来优先去除这些变异。
 
 
发表时间:2021年1月
影响因子:11.689
原文链接:
https://pubmed.ncbi.nlm.nih.gov/33452486/
 

 

研究背景

高粱和玉米都是禾本科植物成员,经常作为植物比较基因组学的模型系统。它们共同的禾本科祖先大约在9600万年前经历了一次全基因组复制事件,而玉米的第二次全基因组复制与1200万年前从高粱中分化出来的过程密切相关。多倍化在玉米多样性中的作用使高粱-玉米系统特别适合进行比较研究。

 

根据考古植物学研究资料,大约公元前3000年在苏丹东部发生了第一次高粱驯化事件,而遗传研究证据表明西非可能是第二个独立的驯化中心。相比之下,玉米则是在大约9000年前从墨西哥中部巴尔萨斯河谷的大刍草驯化而来。虽然这两个物种之间有些直系同源基因在驯化过程中经历了并行选择,大多数驯化相关基因似乎来自于一组非重叠基因座。已经非常确定的是,与大刍草相比,由于玉米的驯化瓶颈增加了驯化的有害等位基因的负荷,玉米在有效群体大小上经历过一个下降的过程。在高粱中也报道过在地方群体中由于遗传瓶颈或群体大小的下降而导致的核酸多态性减少的证据。  

 

高粱具有雌雄同体的花序,这与它主要自花传粉的性质有关。驯化的高粱异交率只有7 ~ 20%,而对于杂草和野生高粱,异交率往往更高(高达70%)。相反,玉米和它的野生祖先大刍草是雌雄同株的,异交率超过90%。在这项研究中,研究者对高粱和玉米的功能变异进行了联合分析,并比较了这两个近缘物种在不同驯化历史和交配系统下的有害突变积累。
 

 

研究结果

1. 研究者首先利用WGS对499个高粱品系的多样性组合中持续遗传变异的水平和模式进行了广泛的表征。

这些种质材料代表广泛的分子和表型多样性,包括野生亲缘种、当地品种和改良品系。每个品系平均测序深度17×。利用高粱参考基因组统计变异,筛选获得1320万个高质量核心SNP和180万个InDels。

 

高粱已有5个种族,通过PCA分析,研究者观察到高粱样本在种族和地理位置上存在群体结构(图1a),这与已有的报道一致。在多样性组合中的连锁不平衡(LD)在开始的几kb内迅速衰减到初始值50%,在300 kb左右达到背景水平(图1b)。研究者观察到种族中在LD衰减速率和更显著的等位基因频率分化方面的细微差异,除1号染色体(围绕着丝点区域存在一个大的基因组间隔的缺失)外,其他染色体上的着丝粒周围的LD均显著增加(图1c)。

 

图1: 高粱中的群体结构和连锁不平衡(LD)模式。
a. PCA分析。b. LD衰减速率。c. 在1 Mb窗口中估计的平均LD分值。参考基因组缺失了1号染色体上的大部分着丝点区域。

 

2. 为了进行比较分析,研究者利用基因组进化率和氨基酸守恒模型分析高粱和玉米基因组中有害变异的候选位点。
基因组进化率分析发现高粱基因组中有64.9 Mb(9.49%)受到进化限制。在玉米中,这个值增加到117Mb,但只占其基因组的4.16%。和在玉米中一样,高粱中的有害突变和玉米中一样富集在的中心粒区域,在中心粒区域被抑制的重组使生物体很难清除这些变异。研究者研究了这两个物种之间的分化和共线性状态是否与有害变异的积累有关,发现在玉米和高粱的分型和未分型基因中,每种类型变异的比例都是相似的,但在这两种作物的非共线性基因中,有害变异的数量明显更高(图2a)。该结果表明,在两个物种中都携带较高水平有害变异的情况下,非共线性基因可能并不那么重要。
 
驯化成本假说预测,驯化和作物改良的过程可能会导致基因组中有害变异数量的增加。研究者同时对玉米和高粱的野生种、地方品种和改良品系的有害积累进行了研究,得到与前人一致的结论,即改良玉米系与野生玉米系相比,整体有害等位基因过多(图2b)。而在高粱中,野生近缘种的有害等位基因积累最多。研究者推测高粱(自交)与玉米(异交)交配体系的内在差异可能是导致这种差异的部分原因,尤其是高粱驯化后趋向于更高的自交率。
 
值得注意的是,包括驯化后自交率增加在内的模拟分析表明,与野生系相比,地方品种的遗传负荷有所下降,这与研究者对数据的解释相一致(图2c)。在野生高粱中观察到的遗传多样性低并不是造成这种负荷差异的原因,因为它们遵循预期的模式(野生种>地方品种>改良品系)(图2d)。一些研究人员已经强调了高粱驯化过程的复杂性,包括从野生亲缘基因的渗透来减少现代品系遗传负荷的潜力。

 

图2:高粱和玉米中有害等位基因的比较分析。
a. 高粱(左)和玉米(右)中的变异在CDS内的分布。b. 高粱(左)和玉米(右)中的有害负荷统计。c. 遗传负荷在模拟情况下的分布。模拟结果基于SMC++推断的1万年前高粱地方种和野生种的平均种群大小。通过将高粱的近交率由0(无自交)改为1(自交),探讨了自交增加对高粱栽培的影响。d. 在1 Mb的窗口中计算了改良品系(黄色)、地方品种(蓝色)和野生种(红色)6号染色体上的核苷酸多样性(π)估值。
 

3. 通过简单试验已证实基因流入一些地方物种的证据,但在缺乏渐渗证据的地方品种中,这些品系的总遗传负荷不低于地方品种。

虽然复杂的高粱驯化历史可能也导致了野生高粱和栽培高粱的有害变异负荷差异,但模拟分析表明,交配系统可能扮演了更重要的角色。研究者还观察到在阳性选择位点上有害变异“搭便车”的证据。将阳性选择证据最高的5%与阳性选择证据最低的5%进行比较时,研究者发现前者的有害变异与非有害变异比例显著高于后者。研究者利用监督机器学习,评估了卷积神经网络(CNNs)在构建一个能够预测高粱基因有害指数和共线性状态的进化模型的有效性,并整合了功能重要性预测、玉米基因共线性和分化、基因表达变异水平和一些分子进化统计(图3)。

 

图3:高粱基因组概貌图。

 
4. 利用进化模型,研究者预测并统计了每个基因突变有害的可能性。

该模型利用一个省略变量的方法评估个体特征的重要性,预测精度为0.53,比线性回归模型的预测精度高10%。研究者发现有四个特征最有影响,其中平均GERP得分和编码序列中的变异数更为重要,因为它们都反映了基因座的纯化选择强度(图4a,b)。另外两个影响因素是高粱和玉米同源基因的RNA表达变异。研究者还用该模型预测了突变基因共线性状态,发现两个与玉米相关的特征的相关性最强:ssw(使用短k-mer比对的两个基因组之间的保守度量)和玉米核苷酸多样性(π)(图4c)。研究者预测,与可能非必需的非共线性基因相比,玉米共线性基因组区域具有更低的核苷酸多态性。因此,核苷酸多态性可能是一个明确的指标,哪些基因是共线的或非共线的,而其他模型特征可能决定基因是分割的或非分割的。

 

图4: CNN结构。
a. 高粱基因组被分成34.028个窗口,每个基因作为一个中心。对于每个基因组,统计12个特征。四个特征计算利用位于同一条染色体上的玉米和高粱之间的关系。

 

 

研究结论

 
综上所述,研究者对高粱和玉米基因组在野生、地方和驯化品系中的变异进行了联合变异分析,以比较它们在遗传负荷积累方面的差异。研究者还利用这两个物种之间的共线性关系通过,监督机器学习构建和测试了一个进化模型。研究者设想,通过深度学习模型最初在进化相关的模式物种上进行训练,这些模型具有大量的实验验证数据(如甲基化、组蛋白标记和ATAC-seq),类似的策略可以改善相对特征不那么明显的物种基因组的功能注释和预测。总体而言,研究者构建了高粱基因组图谱,该图谱可用于支持GWAS结果和方差评估,并在比较基因组学框架下为全基因组预测提供信息。
 

 

参考文献

 

LozanoR, Gazave E, Dos Santos JPR, Stetter MG, Valluru R, Bandillo N, Fernandes SB,Brown PJ, Shakoor N, Mockler TC, Cooper EA, Taylor Perkins M, Buckler ES,Ross-Ibarra J, Gore MA. Comparative evolutionary genetics of deleterious loadin sorghum and maize. Nat Plants. 2021 Jan;7(1):17-24. doi:10.1038/s41477-020-00834-5. Epub 2021 Jan 15. PMID: 33452486.

扫码关注「实验菌」,入科研社群,领学习资源

更有优质直播、研选好物、福利活动等你来!

评论

商家推荐

全基因组重测序

询价

全基因组重测序 WGS

询价

全基因组重测序

询价

动植物全基因组重测序

询价

测序类服务:全基因组重测序(Whole Genome Resequencing)技术服务

¥2000

全基因组重测序(GWS)

询价

物种的De novo测序与基因组重测序

¥1000

全基因组重测序服务

¥10000

App NGS-01 全基因组重测序

¥1

全基因组重测序

询价
咨询商家