科研成果

SCIENTIFIC RESEARCH ACHIEVEMENTS

面向生物多组学分析和药物设计领域的高性能计算应用平台

  • 分享

字段1 字段2
字段3 字段4
职称 负责人

国家超级计算广州中心面向生物多组学分析和药物设计领域行业应用需求,研制和建设简易实用、大规模高效、稳定运行的高性能计算应用平台。突破领域应用跨平台超算计算架构、多模态大数据综合管理与分析处理、大规模跨尺度关联融合、高通量任务高效计算等关键技术,开发和集成主流数据库、应用软件、且具有可扩展能力,提供应用所需的数据资源、软件资源、计算资源、简易交互界面等全方位服务功能,有效支撑包括高等院校、科研机构、行业用户的大规模多组学数据分析、药物筛选和设计等应用计算需求,实现疾病辅助诊断、药物靶标发现、新型药物设计等领域业务应用,加快国产超算在生物医药应用领域的推广和普及,提高我国超算应用水平。

生物平台的总体目标是基于多个重要生物组学数据库的镜像,对这些数据建立统一的数据标准;构建标准组学数据分析模块,将不同层次多组学数据整合在一起,实现数据的融合分析;基于现有的知识库,结合人工智能算法、对这些生物组学数据进行深度挖掘和注释。

本平台实现了对不同层次数据的知识库进行整合,统一实体和关系命名,建立知识图谱。整合的数据库 包括 基 因 突 变(COSMIC、Clinvar、HGMD等)、转 录 组(eQTL、Roadmap)、表 观 遗 传(EOCODE、FANTOM、RoadmapEpigenomics)、非编码RNA(NONCODE等)、药物基因组学(LINCS、PharmGKB、TTD)、蛋白质结构(PDB)和功能(GO、Uniprot、Reactome、KEGG),蛋白质与蛋白质(StringDB)、小分子(BindingDB、ChEMBL、Drugbank)的相互作用,以及基因与疾病(CTD、OMIM、SIDER)关系等。

平台整合了各类公共癌症组学数据集。前期研究中项目已经下载了TCGA中33种癌症的基因组、转录组、DNA甲基化以及病理影像组数据,并获得了TCGA下载完整序列数据的完全授权。接下来,将整合GEO中其它分散的相关癌症数据集合,也将进一步申请获得ICGC及UK Biobank的授权。联合军事科学院布置了国际蛋白质组学共享平台iProX的镜像,对外提供数据和计算服务。

通过与医院科室合作,整合医院的癌症组学数据资源。前期,项目组与中山大学附属第一医院团队合作,获得了768名宫颈癌患者的全基因组测序数据和病理、CT等临床影像组学数据;与中山附二医院团队组合作,获得了200例膀胱癌患者的临床影像组、癌组织和癌旁组织的外显子组与转录组数据。未来将继续利用中山大学十家顶级附属医院的优势,通过合作整合更多的癌症组学数据。

在数据分析处理方面,针对基因组的驱动,项目组将根据数据库中定义的基因功能区域、基因、基因模块、基因通路划分,结合知识图谱中的基因突变对应的致病预测分值,对每个模块中出现突变的分值进行加和,通过比较癌症和千人基因组、亚洲十万人基因组、以及自有的组学数据,发现新的癌症驱动模式。针对转录组等其它组学数据,包括转录组(含miRNA、lncRNA)、单细胞测序、蛋白质组、药物基因组等组学类型,根据知识图谱建立分子间的关系图,利用网络分析或图卷积学习挖掘关键分子或网络模块。

除此之外,围绕着生物数据分析流程平台建设,项目组在生物大分子预测、组学数据分析、多组学数据关联和融合、数据挖掘算法、知识图谱构建和应用,以及云平台建设等方面已经奠定了重要的研究基础,为平台构建奠定了技术基础,相应的研究和技术。

版权所有©北京大学大数据分析与应用技术国家工程实验室 京ICP备05065075号-1 京公网安备 110402430047 号