2020年10月23日,海洋生物遗传学与育种教育部重点实验室包振民院士团队在国际数据库领域顶级期刊《Nucleic Acids Research》在线发表了国际首个软体动物综合基因组数据库 “MolluscDB: an integrated functional and evolutionary genomics database for the hyper-diverse animal phylum Mollusca”(MolluscDB:系统整合功能和进化组学资源的软体动物超大类群基因组数据库)。
高通量测序技术的革命性突破及各类组学技术广泛应用,为生命科学领域带来前所未有的发展契机,推动生命科学研究快速进入大数据时代。随着基因组学数据以史无前例的规模增长,深度挖掘复杂高维度的海量组学资源已成为当前生命科学领域面临的巨大挑战。构建系统便捷、功能全面的基因组学数据库在解决这一难题上发挥着重要作用。当前,国际上广泛使用的大型公共基因组数据库仍主要聚焦并服务于人类医学及小鼠、斑马鱼、果蝇等模式生物研究。对非模式生物类群(如大部分海洋生物)而言,至今缺乏适当的整合平台及深度分析工具,以满足日益增长的对复杂海量组学数据的分析需求。
软体动物起源于5亿年前早寒武纪,是进化上最成功的无脊椎动物群体之一。软体动物现存种类高达10万种以上,是动物界中仅次于节肢动物的第二大门类,对软体动物类群的起源演化研究是学术界长期以来关注的热点。此外许多软体动物也是重要水产经济物种,其占世界水产总产量高达22%。近些年软体动物基因组学发展迅速,取得的重要科学发现层出不穷,极大地提升了目前对动物起源和适应性演化的认知深度。当前,软体动物组学资源通常以原始数据状态存储在NCBI等资源存储型为主的公共数据库中,缺乏可实现数据资源整合和深度分析的综合平台,更缺乏针对软体动物生物学特性所设计的定制分析工具。本研究团队通过广泛收集软体动物基因组学资源,系统梳理整合多组学数据及开发丰富的分析工具,构建了迄今物种覆盖度最广、组学资源最丰富、功能最全面的软体动物基因组学分析平台MolluscDB(图1)。
图1 MolluscDB数据库主页(http://mgbase.qnlm.ac)
MolluscDB数据库收集并整合了近1000份组学数据资源,包括20个高质量的参考基因组,538个转录组和409个线粒体基因组(图2)。组学数据来自123个物种,涵盖了软体动物门全部7个纲和53个目中的87%,地理分布覆盖从陆地、淡水、近海到深海,囊括了已公开的绝大部分软体动物组学资源。MolluscDB提供多达10种的基础性组学分析,包括基因组组装信息、系统演化关系、古老化石记录、基因序列及结构、基因功能注释、发育时期/成体组织表达谱、基因家族、转录因子和转座子等。通过开发定制的基因组浏览器,实现了复杂基因组信息的便捷可视化。针对软体动物的基因组特征和生物学特性,MolluscDB还提供了满足特定研究需要的定制数据集和分析工具,包括发育和成体基因共表达网络、软体动物祖先及其分演类群的核心基因集、基因组宏观共线性分析等。MolluscDB提供了迄今最为系统全面的软体动物基因组数据库平台,该平台将使软体动物研究领域能够应对并充分利用日益增长的海量组学资源,从而加快重要基因资源发掘,推动认知海洋生物独特生命过程的遗传演化规律,也为贝类遗传育种工作提供了有力的支持。
海洋生物遗传学与育种教育部重点实验室、方宗熙-萨斯海洋分子生物学研究中心的王师教授为本文的通讯作者,李语丽副教授为共同通讯作者,在读博士生刘福云为本文的第一作者。研究工作获得国家重点研发计划、国家自然科学基金、山东省泰山学者等项目资助。该项工作同时获得了青岛海洋科学与技术试点国家实验室高性能科学计算与系统仿真平台的大力支持。
图2 MolluscDB数据库架构和网页界面功能概览
论文链接:https://academic.oup.com/nar/advance-article-abstract/doi/10.1093/nar/gkaa918/5936037