原生生物(Protist)是一大类单细胞真核生物的集合,包括单细胞真核藻类和原生动物等,组成了原生生物界。原生生物具有高度多样性,广泛分布于各类水环境中,在生态平衡、物质和能量循环、环境健康、动植物疾病发生等方面发挥重要作用。NCBI分类系统已记录的原生生物种类超过6万种,未知数量难以估量。2019年12月,中国科学院水生生物研究所牵头发起万种原生生物基因组计划(P10K),旨在建立一个大规模的原生生物遗传资源数据库,变革原生生物遗传资源数据极度缺乏的局面。
近日,水生所与中国科学院北京基因组研究所(国家生物信息中心)联合发布了P10K第一批数据。该数据通过万种原生生物基因组数据库(P10K database,https://ngdc.cncb.ac.cn/p10k/)释放共享。相关成果发表在《核酸研究》。P10K第一批数据收录了2959个原生生物数据集,包括1601个基因组和1358个转录组数据集,覆盖原生生物75%的纲和45%的目。其中,P10K团队在公共数据库整合了1858个数据集;新测序了1101个数据集,且以原生动物纤毛虫为主。新测序数据将原生生物数据集规模整体提升了37%。新测序的样品由P10K团队在国内多种生境中采集、分离。对于不能实验室培养的大部分原生动物,该团队采用单细胞测序方法(约占新测序数据的98%)。同时,为解决大规模单细胞组学数据的分析问题,P10K团队研发了一套针对原生生物单细胞测序数据的组装、去污染、物种鉴定、基因注释和评估的标准化分析流程。质量评估显示,该流程注释的基因组与公共数据库发布的基因组具有相似比例的中高等质量数据。
据介绍,作为“万种原生生物基因组计划”的重要组成部分,P10K数据库的建立和数据共享,将有助于推动对真核生物和多细胞生物起源、真核生物多样性、原生生物的极端环境适应以及微生物互作等重要基础科学问题的研究。这一计划将促进对与生态环境保护、污染物降解和转化、营养健康以及疾病防治相关的原生生物遗传资源的挖掘和潜在应用。鉴于原生生物是浮游生物的关键组成部分,P10K数据库将为基于环境DNA的浮游生物鉴定提供支持,助力水生态健康评价。
尤为重要的是,P10K数据库建立了国家水生生物种质资源库/国家寄生虫资源库(活体种质资源)和国家基因组科学数据中心(遗传资源)之间的联系,对于促进国家科技资源共享服务平台的信息互联互通和数据共享具有重要意义。(经济日报记者 沈慧)
文章声明:以上内容(如有图片或视频亦包括在内)除非注明,否则均为互联网收集整理内容,如有侵权,请联系客服进行处理