兰州百合基因组(36.68 Gb)-文献精读113

The evolutionary tale of lilies: Giant genomes derived from transposon insertions and polyploidization

百合的进化故事:由转座子插入和多倍化导致的巨型基因组

百合(Lilium spp.),被誉为“球根花卉之王”,因其美丽芳香的花朵和富含营养的鳞茎而具有极高的观赏和药用价值。百合属包含约 115 种多年生球根草本植物,广泛分布于北半球,其中中国已发现 55 种和 18 个变种。中国丰富的百合种质资源不仅促进了其广泛应用,也为科学研究提供了宝贵的材料。然而,百合的巨型基因组对高质量基因组组装提出了挑战,目前尚无该类群的参考基因组。迄今为止,由于技术限制和高昂成本,仅有少数巨型基因组被成功解析。

生物体基因组大小的巨大差异在生物学上具有重要意义,但生物复杂性与基因组大小之间的关系仍不明确。大规模和复杂基因组的测序与组装面临诸多挑战,如多倍化、高杂合度和高重复序列比例。由于百合属植物的基因组比其他真核生物大得多,几乎所有百合种都可作为研究生物复杂性与基因组大小关系的理想模型。兰州百合(L. davidii var. unicolor)是唯一可食用的甜百合品种,在中国兰州已被种植约 150 年,为当地农民提供了重要的经济来源。我们选择该品种进行基因组测序,以获取有价值的数据来研究百合的巨型基因组,从而推动百合的遗传改良和育种工作。

百合巨型基因组的染色体级组装

我们通过流式细胞术分析估算 L. davidii var. unicolor 的基因组大小约为 38.01 Gb,而 K-mer 分析结果显示其基因组大小约为 37.62 Gb,杂合度为 2.18%。核型分析表明该品种为二倍体,具有 12 对巨型染色体。为了组装这一超大基因组,我们生成了 3.32 Tb 的 Illumina 短读长数据和 2.25 Tb 的 Nanopore 长读长数据,并采用适用于巨型基因组的优化 NextDenovo 流程,构建了初步的非冗余 contig 级组装,得到 36.68 Gb 的基因组序列(13,068 个 contigs,N50 = 7.72 Mb)。随后,我们生成了 4.45 Tb 的高通量染色体构象捕获(Hi-C)数据用于物理图谱构建,并经过四轮手动调整,将 96.99% 的 contigs 锚定到 12 条拟染色体上,对应 12 对染色体(图 1A)。

图 1. 百合基因组及多组学分析

(A) L. davidii var. unicolor 的基因组特征。 (B) Gypsy 和 Copia 类逆转录转座子 (retrotransposons) 的插入时间估算。 (C) Gypsy 和 Copia 逆转录转座子亚类的系统发生关系及分类。 (D) 全基因组复制 (WGD) 事件的鉴定。 (E) 百合的系统发生位置及分化时间。“τ” 代表所有单子叶植物(除水龙骨目和泽泻目外)共享的 WGD 事件。 (F) 百合基因组中不同基因长度和内含子数量的表达模式。 (G) 百合小鳞茎发育过程中鲜重及淀粉和蔗糖含量的变化。 (H) 糖酵解代谢物与共表达模块的相关性分析。

我们采用多种方法评估了基因组组装的完整性和准确性。首先,我们测量了三个体细胞中 12 对染色体的相对物理长度,结果显示组装的染色体长度与实际观测的物理长度成比例。随后,我们将 Illumina 和 Nanopore 读段重新比对至基因组,映射率分别高达 97.80% 和 99.10%。长末端重复 (LTR) 组装指数 (LAI) 评估值超过 10,而碱基水平的准确性分析得出的质量值 (QV) 为 30.18,远超参考级基因组的标准。此外,我们在两个拟染色体的两端以及五个拟染色体的一端鉴定到了端粒序列,进一步验证了基因组组装的高完整性。基因组注释共鉴定到 87,501 个蛋白编码基因,其中 78,348 个基因(89.54%)可进行功能注释。此外,通用单拷贝直系同源基因 (BUSCO) 评估结果显示基因组完整性达 94.90%。这些结果表明百合基因组的完整性、准确性和连贯性均处于较高水平。

近期转座子扩增及多倍化导致兰州百合的超大基因组

基因组大小的主要影响因素包括重复 DNA 序列的积累和全基因组复制 (WGD)。注释分析表明,百合基因组中重复序列比例极高 (88.31%),其中转座元件 (TEs) 占比 84.19%。在这些 TE 中,LTR 逆转录转座子 (LTR-RTs) 是主要组成部分 (64.40%),其中 Copia 和 Gypsy 元素分别占 16.62% 和 31.53%。LTR-RTs 插入时间估算结果显示,在过去 500 万年内,其积累速率显著加快,其中 Copia 在约 165 万年前达到峰值,出现爆发式插入,而 Gypsy 在约 89 万年前出现插入高峰 (图 1B)。在这些高峰时期,Copia 和 Gypsy 元素的插入分别占 TE 总插入量的 29.6% 和 22.1%。因此,近期的大规模 TE 插入事件是百合基因组膨胀的主要原因。

系统发生分析表明,百合中的 Gypsy 和 Copia LTR-RTs 均包含多个亚类 (图 1C)。其中,两个 Gypsy 亚类 (Athila 和 Tekay) 以及两个 Copia 亚类 (Tork 和 Ikeros) 的丰度远高于其他亚类,表明它们对基因组扩张贡献显著。在植物进化过程中,不同 TE 亚类扩增程度各异,而在百合中,Athila、Retand、Tekay 和 Tork 发生了爆发式扩增 (图 1C)。部分亚类(如 Athila)具有着丝粒周围异染色质区域的靶向偏好,可抑制重组,从而降低 LTR-RT 的移除率,进一步促进基因组扩张。

除了 TE 插入,全基因组复制 (WGD) 也可能直接导致基因组大小的扩增。因此,我们分析了百合基因组内的 WGD 事件。对保留在共线性区域内的直系同源基因进行同义替换位点 (Ks) 分布分析,结果显示两个显著峰值 (Ks = 1.35 和 0.97),表明百合经历了两轮 WGD 事件 (图 1D)。跨基因组共线性分析显示,百合与 Acorus gramineus 之间的共线性比例为 4:2,与芦笋 (Asparagus officinalis) 和山药 (Dioscorea alata) 之间的比例均为 4:4。鉴于 A. gramineus 仅经历了一次 WGD,而芦笋和山药各经历了两次 WGD,这些共线性关系支持百合基因组中发生了两轮 WGD 的假设。

使用 563 个低拷贝直系同源基因构建的单子叶植物系统发生树显示,百合是天门冬目 (Asparagales) 的姐妹类群,二者在约 72.7 百万年前 (mya) 分化 (图 1E),这一结果与大多数基于核基因的研究一致。然而,一些基于叶绿体基因组的研究提出天门冬目和百合目 (Liliales) 依次与鸭跖草类群 (Commelinids) 形成姐妹关系,可能反映了不同遗传方式(双亲遗传 vs. 单亲遗传)导致的核质冲突。此外,尽管洋葱和大蒜等天门冬目植物经历了两次额外的 WGD,但其基因组大小仍不足百合基因组的一半,说明百合在 TE 插入和 WGD 事件后,基因组得到了更好的保留。LTR-RTs 的不等重组是植物中主要的 TE 移除机制,而百合可能比其他植物拥有更低的不等重组率,从而导致其 LTR 积累速度更快,形成超大基因组。

百合的超长基因源自超长内含子,并表现出基因长度与表达水平的负相关性

百合基因组中包含大量长基因,平均长度为 57.61 kb,长度超过 50 kb 的超长基因占所有基因的 33.88%。然而,百合的编码序列 (CDS) 平均长度仅 847.17 bp,包含平均 3.97 个外显子,每个外显子的长度为 213.72 bp,表明超长内含子是百合超长基因的主要原因。百合基因的平均内含子长度达 ∼19.13 kb,在已发表的植物基因组中仅次于攀枝花苏铁 (Cycas panzhihuaensis)。

在裸子植物华山松 (Pinus tabuliformis) 中,长内含子基因的表达水平较高,被认为与染色质可及性有关。然而,百合基因组的表达模式显示出不同的趋势 (图 1F):在基因长度小于 50 kb 时,基因长度与表达水平呈正相关,而当基因长度超过 50 kb 后,这种相关性变为负相关。此外,表达水平最高的百合基因通常包含 3 或 4 个内含子 (图 1F)。这些发现表明 50 kb 可能是影响基因转录或内含子剪切效率的关键阈值。

百合小鳞茎发育与碳水化合物代谢

百合鳞茎是重要的营养储存器官,在东亚的医药和食品产业中具有重要价值。为探究小鳞茎发育过程中营养物质的积累及其分子机制,我们对五个发育阶段的小鳞茎进行了细胞学、转录组学和代谢组学分析。整个发育过程中,小鳞茎中的淀粉和蔗糖含量逐步积累 (图 1G)。代谢-转录组相关性分析显示,碳水化合物代谢物与一个基因表达模块(turquoise)存在显著相关性 (图 1H),该模块可能包含碳水化合物和淀粉代谢途径中的关键基因。

总之,本研究成功组装了染色体级百合基因组,并深入解析了其巨型基因组特征,为百合遗传改良和分子育种提供了重要资源。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/70530.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

macos sequoia 禁用 ctrl+enter 打开鼠标右键菜单功能

macos sequoia默认ctrlenter会打开鼠标右键菜单,使得很多软件有冲突。关闭方法: end

UE5.3 C++ TArray系列(一)

一.TArray概述 它们就相当于C动态数组Vector,但是被UE封装了,懂得都懂反射嘛,要不一不小心就被回收了。 它真的非常常见,我所用的容器中,它绝对排名第一,第二是TMap。 同类好理解,我平时也常用…

Docker+Dify部署DeepSeek-r1本地知识库

安装配置Docker Desktop 软件下载 Docker Desktop版本:4.38.0.181591 Docker Desktop下载地址:Docker: Accelerated Container Application Development 或者从这里下载:DockerDesktop-4.38.0.181591资源-CSDN文库 点击图下所示位置,下载windows-AMD64版本软件 启用Hy…

MySQL数据库——表的约束

1.空属性(null/not null) 两个值:null(默认的)和not null(不为空) 数据库默认字段基本都是字段为空,但是实际开发时,尽可能保证字段不为空,因为数据为空没办法…

腿足机器人之十一- 深度强化学习

腿足机器人之十一- 深度强化学习 机器人能力腿足机器人RL问题建模强化学习解决方案 强化学习算法库选择建议 深度学习技术已经在语音、图像、视频、文本等领域应用广泛,其和强化学习的结合使得基于深度学习的大模型能力更是上升一个台阶。因而用在腿足机器人的运动中…

如何教计算机识别视频中的人类动作

作者简介: 高科,先后在 IBM PlatformComputing从事网格计算,淘米网,网易从事游戏服务器开发,拥有丰富的C++,go等语言开发经验,mysql,mongo,redis等数据库,设计模式和网络库开发经验,对战棋类,回合制,moba类页游,手游有丰富的架构设计和开发经验。 =============…

Redisson分布式锁java语法, 可重入性实现原理 ,(还有可重试性,超时不释放,主从一致性)

Redisson在java的使用方法 Redisson分布式锁不可重入的实现原理 设置一个HSET key为锁的名字,field为当前获取锁的线程名字,value为可重入锁的当前已经重入次数 追踪源码发现RedissonClient类的tryLock就是用lua脚本和上图逻辑实现的加锁解锁&#xf…

YOLOv8与DAttention机制的融合:复杂场景下目标检测性能的增强

文章目录 1. YOLOv8简介2. DAttention (DAT)注意力机制概述2.1 DAttention机制的工作原理 3. YOLOv8与DAttention (DAT)的结合3.1 引入DAT的动机3.2 集成方法3.3 代码实现 4. 实验与结果分析4.1 实验设置4.2 结果分析推理速度性能对比 5. 深度分析:DAttention在YOLO…

MAC快速本地部署Deepseek (win也可以)

MAC快速本地部署Deepseek (win也可以) 下载安装ollama 地址: https://ollama.com/ Ollama 是一个开源的大型语言模型(LLM)本地运行框架,旨在简化大模型的部署和管理流程,使开发者、研究人员及爱好者能够高效地在本地环境中实验和…

springboot+dubbo+zookeeper的注册服务和调用实践

目录 zookeeper为什么可作为注册中心zookeeper注册中心优缺点启动zookeeper编写springboot项目提供dubbo服务1. 服务接口2. Springboot引入dubbo实现服务接口2.1 工程目录和依赖2.2 启动程序和application.properties2.3 DubboService 实现服务接口2.4 测试api,用于…

GTSAM 库详细介绍与使用指南

GTSAM 库详细介绍与使用指南 一、GTSAM 概述 GTSAM(Georgia Tech Smoothing and Mapping)是由佐治亚理工学院开发的 C 开源库,专注于 概率图模型(尤其是因子图)的构建与优化,广泛应用于机器人定位与建图&a…

Missing required prop: “maxlength“

背景&#xff1a; 封装一个使用功能相同使用频率较高的input公共组件作为子组件&#xff0c;大多数长度要求为200&#xff0c;且实时显示统计子数&#xff0c;部分input有输入提示。 代码实现如下&#xff1a; <template><el-input v-model"inputValue" t…

基于YOLOv8的人脸识别系统

文章目录 一.前言 二.原理阐述 三.源代码 四.代码改进 五.流程概述 一.前言 原开源项目是对于某时段校园门口学生出入的视频,使用YOLOv8目标检测算法以及yolov8l-face模型将目标换算成只检测人脸, 通过该模型中的track技术实现检测出的人脸进行自动跟踪, 通过跟踪到的…

✨ 索引有哪些缺点以及具体有哪些索引类型

索引的定义与原理 索引是数据库中用于提高数据检索效率的数据结构。它就像是书籍的目录&#xff0c;通过目录可以快速定位到所需内容的页码&#xff0c;而在数据库中&#xff0c;索引可以帮助数据库系统快速找到符合查询条件的数据行&#xff0c;而不必对整个表进行扫描。 其…

TCP...

什么是TCP&#xff1f; TCP是面向连接的、可靠的、基于字节流的传输层通信协议 面向连接&#xff1a;一定是「一对一」才能连接&#xff0c;不能像 UDP 协议可以一个主机同时向多个主机发送消息&#xff0c;也就是一对多&#xff0c;是无法做到的&#xff1b;字节流&#xff…

工业通信协议 EtherNet/IP 全面解析

工业通信协议 EtherNet/IP 全面解析 EtherNet/IP&#xff08;以太网工业协议&#xff09;是一种基于标准以太网的工业自动化通信协议&#xff0c;由 ODVA&#xff08;开放设备网供应商协会&#xff09; 管理。它融合了 CIP&#xff08;通用工业协议&#xff09; 和以太网技术&…

react+typescript,初始化与项目配置

1&#xff0c;创建项目 npx create-react-app music --template typescript 2&#xff0c;配置项目别名 npm install craco/cracoalpha -D 1&#xff0c;最外层与src平级创建 craco.config.jsconst path require(path)const resolve (dir) > path.resolve(__dirname, d…

JAVA Kotlin Androd 使用String.format()格式化日期

在以前的开发中&#xff0c;日期格式化一直使用的是SimpleDateFormat进行格式化。今天发现String.format也可以格式化。当 然&#xff0c;两种方式的优劣没有进行深入分析。 val date Date()//月&#xff0c;日&#xff0c;星期&#xff0c;AM/PM//Fue 1 (Sat) pmval fullDate…

deepseek:三个月备考高级系统架构师

一、备考总体规划&#xff08;2025年2月11日 - 2025年5月&#xff09; 1. 第一阶段&#xff1a;基础夯实&#xff08;2025年2月11日 - 2025年3月10日&#xff09; 目标&#xff1a;快速掌握系统架构师考试的核心知识点。 重点内容&#xff1a; 计算机组成原理、操作系统、数据…

rust笔记2-特质trait

Rust中的Trait技术 1. Trait的由来 Trait是Rust中实现多态&#xff08;polymorphism&#xff09;的核心机制之一。它的设计灵感来自于Haskell的类型类&#xff08;Type Class&#xff09;和C的概念&#xff08;Concepts&#xff09;。Trait允许你定义一组方法签名&#xff0c;…