收集整合近4200份多组学数据资源、软体动物多组学资源来自1450 个物种……近期,包振民院士团队面向全球科学共同体发布了迄今最大规模的软体动物(俗称贝类)功能和进化基因组学综合数据库 MolluscDB2.0。相关成果发表于 Nucleic Acids Research(《核酸研究》)。
目前,MolluscDB2.0 是软体动物研究领域物种覆盖度最广、组学资源最丰富、分析功能最全面的开放获取数据库平台。
“应国家需求,做一流学术;不做则已,做必完美。”团队成员、海洋生物遗传学与育种教育部重点实验室教授王师说道,这是包振民对团队提出的要求。近年来,以此为准则,包振民带领团队紧扣海洋强国建设核心需求,在海洋科技领域全力以赴。
填补国际贝类基因组学研究空白
起源于 5 亿年前早寒武纪的软体动物是动物界第二大门类,也是最大的海洋动物门类,现存种类超过 10 万种,是进化最成功的无脊椎动物群体之一。许多贝类是重要的水产经济物种,占我国海水养殖水产总量 70% 左右。
贝类基因组学的迅速发展,极大加深了人们对动物起源和适应性演化的认知。然而,由于国际上没有贝类专有基因组数据库,因此,人们对贝类生物学资源的开发利用还远远不够。
“如何高效整合原始、分散的海量数据,构建贝类个性化组学分析平台?”2019年,包振民提出了这个充满挑战性的课题。团队成立了一个攻关小组,着手构建软体动物综合基因组数据库。
2021 年,包振民团队联合国内外知名研究机构发起国际万种软体动物基因组计划(M10K Project)。同年,国际首个软体动物综合基因组数据库 MolluscDB 成功发布,整合了约 1000 份软体动物基因组和转录组学数据,并提供了多种基因组比较分析工具,填补了国际贝类基因组学研究领域的空白。相关成果在《核酸研究》发表。
国际专家当时评价称:“这一迄今最为综合的贝类基因组数据库,在未来所有种类的软体动物组学项目中将被广泛使用。”
自正式上线运行以来,MolluscDB 已吸引了来自 70 多个国家的近 1.5 万次访问,成为全球软体动物研究的重要组学资源中心。
变不可能为可能
近年来,高精度、多维度的功能基因组学数据呈爆发式增长,为贝类科学研究带来新的发展机遇。
“如何利用系统生物学工具高效整合具有复杂、高维、海量等特征的多组学资源?”包振民再次提出新命题。
完成这一命题,意味着团队既要开发相关的系统生物学工具,又要在短时间内完成数据的系统整合与分析。
在外人看来,这几乎是“不可能完成的任务”。然而,早在 2021 年,团队就着手部署了系统生物学分析工具 PanSyn 软件包的研发工作。2024 年,关于这项工作的长达 68页的研究论文发表在 Nature Protocols(《自然-实验手册》)。
中国科学院北京基因组研究所研究员于军评价道:“PanSyn 为高维度海量组学资源分析提供了最全面和强大的工具,推动生命科学领域取得创新发现和重要突破。”
变不可能为可能,面向系统生物学前沿需求的 MolluscDB2.0 平台逐渐成型。
与时间赛跑
当团队按计划有条不紊地推动数据库升级并已完成大半任务时,却意外得知国际顶尖机构的同行也在着手推进贝类基因组数据库建设。
“我们必须在短时间内高质量、高效率地完成 MolluscDB2.0 的构建。”王师暗下决心。
但是,棘手的问题偏偏在攻关小组与时间赛跑的过程中出现了。海量数据的处理急需强大的服务器支持,但是现有服务器并不能满足这一需求。
愁眉不展之际,崂山实验室鼎力相助,以强大计算资源为 MolluscDB 2.0 的构建提供了充裕的存储与计算能力,解决了团队的燃眉之急。中国海洋大学大生命学科超级计算集群也提供了宝贵的分析资源,共同助力团队攻坚克难。
硬件设施问题解决后,团队成员夜以继日地朝着目标奋力前进。终于,MolluscDB 2.0 于近期成功发布。
MolluscDB2.0 收集并整合了近4200份多组学数据资源,实现主流组学维度的全覆盖,如高质量基因组、bulk 转录组、单细胞转录组、蛋白质组、表观遗传组、微生物宏基因组等。软体动物多组学资源来自1450 个物种,涵盖了软体动物门全部 8 个纲和 76 个目中 92% 的物种,地理分布覆盖陆地、淡水、近海、深海,囊括了已公开的绝大部分软体动物的多组学资源。
相较于前版,除了贝类多组学数据量增加 3 倍外,MolluscDB2.0 的数据维度也提升了 2 倍,全面升级了原有的 14 种基础分析模块,新增多达 20 种定制分析模块,还实现了复杂多组学信息的便捷可视化与高效整合分析,极大提高了研究效率、加深了研究深度。
包振民表示,未来,MolluscDB 2.0 将为解码贝类起源与演化的“生命之树”奠定重要基础,推动认知海洋生物独特生命过程演变规律,也将为贝类重要基因资源发掘、遗传育种工作等提供有力支撑。
(王红梅)
MolluscDB 数据库助推解码贝类“生命之树”