国家基因组科学数据中心:中国生命科学的数据基石与全球科研新枢纽
NGDC概况:从追赶者到引领者的蜕变
成立背景
国际依赖之痛:长期以来,全世界科学家产生的组学数据都要提交给三大数据库——美国国立生物技术信息中心(NCBI)、欧洲生物信息学研究所(EBI)、日本核酸数据库(DDBJ)。我国科学家需要在发表论文时通过互联网将数据提交到这些数据库,而做科研时则需要将数据从这些数据库下载下来,科研效率经常遭遇国际带宽瓶颈的约束。同时,我国科学基金项目和重点研发计划产生的大量基因组科学数据,分散在不同研究单位和实验室,本土数据形成 “孤岛”。
战略机****遇窗口:2019年,科技部批准成立NGDC,由中国科学院北京基因组研究所牵头,联合顶尖科研机构,构建属于中国的生命科学数据高地。
核心定位
三大核心目标
-
数据汇交存储:建立符合国际标准的原始组学数据归档库
-
整合挖掘创新:构建多组学数据整合与知识发现体系
-
转化应用赋能:支撑精准医学、生物安全等国家战略需求
三大重点方向
-
中国人群精准医学信息库(构建本土遗传变异图谱)
-
原始组学数据共享平台(对标国际的 GSA 数据库)
-
战略生物资源数据库(覆盖病原、动植物等多领域)
基础设施
计算存储能力
-
3720万亿次/秒计算速度
-
16,576个计算核心(含2600个NPU)
-
108PB存储资源(相当于存储2700万部高清电影)
-
2.7Gbps国际网络带宽
数据管理体系
建立覆盖数据提交、存储、分析、共享的全生命周期管理系统,保障数据安全与合规。
图1:NGDC计算存储能力
应对挑战:美国数据封锁下的中国方案
封锁影响与危机
2025年4月起,美国NIH禁止中国机构访问其受控数据库,导致75% 癌症研究受阻,药企研发损失超20亿元;罕见病诊断、疫苗研发等医疗领域面临倒退风险;全球科研合作面临割裂,数据主权争夺加剧。
图2:NIH数据库
NGDC的破局之路
短期应对
-
加速本土数据整合:推动医院、科研机构数据汇交,2024年新增20PB数据
-
优化数据治理:建立符合GDPR的跨境数据传输机制
-
拓展国际合作:与“一带一路”12国28机构建立数据共享网络
长期战略
-
制定国际标准:主导《多组学数据汇交规范》等行业标准
-
技术自主创新:开发国产BLAST算法、单细胞分析工具等
-
构建生态****联盟:联合高校、企业成立“中国生命科学数据联盟”
数据资源:全球领先的多组学数据宝藏
数据资源全景图谱
NGDC部署的数据库资源包括原始数据、基因组和变异、基因表达、非编码RNA、表观基因组、单细胞组学、生物多样性和生物合成、健康与疾病、文献和教育9大类112个。其中GSA用于生命科学组学数据的汇交、存储与共享,并且该数据库得到国际认可,2023年入选全球核心生物数据资源(GCBR),是中国唯一入选的数据库。
NGDC 整合了丰富的数据库资源,涵盖了基因组学、转录组学、表观基因组学、单细胞组学、健康与疾病、植物及动物多样性等多个领域。这些数据库为全球研究人员提供了宝贵的数据支持,促进了基础科学研究和应用研究的深度融合。
通过多组学数据的整合,NGDC不仅推动了个体化医疗、疾病机制研究、作物育种和动物健康等方面的突破,还为药物开发、疾病预防和精准医疗提供了强有力的基础。特别是在健康与疾病、基因组变异分析、癌症研究以及衰老和长寿等领域,NGDC 数据库的应用极大地加速了科研成果的转化与应用。
此外,NGDC的开放数据和可视化工具进一步促进了跨学科、跨领域的合作与交流,为全球生命科学研究提供了重要的资源平台,推动了科学创新与技术进步。
图3:不同类别的NGDC 核心数据库资源
数据规模与影响力
截至 2024 年底:
-
支持25,000 +科技项目,汇交数据量达60PB
-
数据被4,300 +篇SCI论文引用,发表于《自然》《科学》等顶刊
-
全球1,200 +机构、8,000 +用户使用,覆盖90 +国家和地区
国际认可:GSA 数据编号被 Cell、Nature 等顶级出版社认可,实现“一次提交,全球通用”。
图4:向CNCB-NGDC提交的数据统计数据
科研利器:NGDC 实用功能全解析
组学数据提交
组学原始数据归档库(Genome Sequence Archive,GSA)是组学原始数据汇交、储、管理与共享系统 。GSA遵循INSDC数据库系统的数据标准和数据结构,主要汇交实验信息(Experiment Metadata)、测序反应信息(Run Metadata)信息以及归档测序文件数据(Sequence Data file)。
GSA 用户可通过大数据中心生物数据统一汇交入口——生物数据递交系统(BIGSubmission,BIG Sub)完成一站式数据递交。
上传步骤
-
注册账号:使用实验室公共邮箱在BIG Sub系统注册
-
创建项目:填写BioProject(项目信息)与BioSample(样本信息)
-
上传数据:支持FTP/Aspera高速传输,超大文件(>30TB)可申请专属通道
文字版详情
视频版详情
NCBI 镜像数据快速下载
NGDC提供了NCBI等国际数据库的镜像数据,可以加快国内用户的下载速度。
SRA下载
GSA是中国首个测序数据归档系统,已完成NCBI SRA全部元数据及2022年4月20日起 SRA日更新全量数据(元数据和原始序列数据)的整合。GSA目前提供NCBI SRA数据库全部数据的检索服务,也提供这些数据在INSDC相关数据库的下载地址以及最新数据的本地化下载地址。
1)进入GSA页面
方法1:直接打开链接: https://ngdc.cncb.ac.cn/gsa
方法2:在首页“All Databases”中选择 “NGDC Databases” 下拉菜单中的 “GSA” 。
2)数据下载
搜索对应的GSA编号,如:“CRA009876”,可以找到对应的原始数据的详细信息,数据下载框点击下载链接进行下载。
GeneBank下载
GenBase对标美国国家生物信息中心NCBI的GenBank数据库,是一个存储、管理、共享所有物种基因序列、注释信息及其编码蛋白质序列的公共资源库,可为基因序列数据的汇交、存储、发布和共享提供一系列 Web 服务。GenBase还整合了INSDC发布的核酸和蛋白序列,提高国内科研人员查询和获取数据的效率。
1)进入 GenBase 页面
方法1:直接打开链接: https://ngdc.cncb.ac.cn/genbase/
方法2:在首页 “All Databases” 中选择 “NGDC Databases” 下拉菜单中的 “Genbase Nucleotide” 或 “Genbase Protein” 。
2)数据下载
通过输入基因名称或accession编号来搜索核酸或蛋白质序列。
根据搜索结果下载单个核酸或蛋白质序列
根据搜索结果下载多个核酸或蛋白质序列
文献搜索
OpenLB开放生物科学图书馆提供对海量文献文本的开放访问,以及CNCB-NGDC相关资源的友好链接。OpenLB的文献文本来源于NCBI PubMed、 bioRxiv 和 medRxiv,包括标题、摘要、作者、期刊、参考文献等。
1)进入OpenLB页面
方法1:首页找到 “数据资源” 板块,“文献和教育” 分类中找到 “OpenLB” 并点击进入。
方法2:直接访问:https://ngdc.cncb.ac.cn/openlb/home,进入 Open LB 页面。
2)搜索
Search
在搜索框输入文章题目/作者名/杂志名/关键词等,点击 “Search” 搜索即可跳转至结果页面,在结果页面可以设定限制条件,只展示符合条件的结果;点击任一文章标题,可查看该文章摘要等基本信息。
Advanced Search
点击搜索框右侧 “Advance Search” 进入高级搜索界面,可以输入多个关键词进行搜索。
BLAST快速分析
NGDC建立面向我国重要物种的349个参考库,实现NCBI核心数据与功能的全覆盖,提供本地化BLAST序列比对现在服务。
1)进入BLAST页面
方法1:首页找到“序列搜索比”板块,点击进入BLAST页面。
方法2:直接访问:https://ngdc.cncb.ac.cn/blast/help/blast_search.html,进入BLAST页面。
2)比对
选择合适的 BLAST 程序进入:其中,核苷酸 BLAST (blastn)使用核苷酸查询搜索核苷酸数据库,protein BLAST(blastp)使用蛋白质查询搜索蛋白质数据库,blastx 使用翻译核苷酸查询搜索蛋白质数据库,tblastn 使用蛋白质查询搜索翻译的核苷酸数据库。
使用逻辑与NCBI的BLAST相似。
提供计算资源
国际合作:NGDC 通过 “一带一路” 国际科学组织联盟(ANSO),与12个国家28个机构建立数据共享合作,用户可申请联合研究项目。
定制化分析:针对大型科研项目,可联系 NGDC 团队获取数据存储、计算资源调度等专项支持。
展望
NGDC 围绕我国生命科学战略需求,构建了数据全链条生态,具备强大计算存储能力,部署 112 个数据库,其中 GSA 入选全球核心生物数据资源,截至2024 年汇交数据 60PB,支撑超 2.5 万科技项目,并在应对外部数据封锁中通过本土整合与技术创新破局。展望未来,中国生物数据库继续聚焦科研实际需求,持续完善本土数据整合(如中国人群精准医学信息库),优化数据工具本地化服务,强化数据安全管理体系;同时在数据主权层面,推动多组学数据汇交国际标准制定,逐步形成自主可控的数据生态,为科研工作者提供高效支撑的同时,保障国家生物数据安全与主权独立。
THE END
本文来自博客园,作者:生物信息与育种,转载请注明原文链接:https://www.cnblogs.com/miyuanbiotech/p/18930227。若要及时了解动态信息,请关注同名微信公众号:生物信息与育种。