近日,生命科学学院廖明帜教授团队在国际期刊《Nature Communications》发表了题为“Large-scale data-driven pre-trained DNA models enhance performance across diverse genomics tasks”的研究论文。该研究提出了一种面向功能基因组学任务的有监督预训练DNA基础模型SUCCEED,为从DNA序列出发预测多层次基因组调控信息提供了新的计算框架。
研究团队提出了名为SUCCEED的有监督DNA基础模型。该模型基于大规模功能基因组数据进行多任务预训练,整合了卷积神经网络和Transformer架构,能够同时捕获局部序列基序和远距离调控依赖关系。研究团队从ENCODE数据库中系统整理了6,389个功能基因组信号tracks,涵盖染色质可及性、组蛋白修饰和转录因子结合等多类表观基因组数据,并利用这些数据训练模型学习DNA 序列与调控功能之间的映射关系。

图1 SUCCEED模型框架图
在模型性能评估和迁移应用中,SUCCEED均表现出较强的竞争力和泛化能力。与其他DNA基础模型相比SUCCEED在CAGE信号预测中取得更高相关性,在转录因子结合、组蛋白修饰和染色质可及性预测等任务中也达到相近或更优的性能。进一步研究显示,SUCCEED能够将大规模功能基因组数据中学习到的调控先验迁移至多类下游任务,包括细胞类型特异表观基因组图谱预测、低质量bulkATAC-seq和scATAC-seq数据去噪增强,以及细胞类型特异三维染色质结构预测等;在多项比较中,该模型均表现出较好的预测精度,并可在不依赖CTCF输入的情况下重建三维染色质结构。
该研究表明,基于大规模功能基因组数据的有监督预训练策略,能够有效提升DNA基础模型对真实生物调控功能的表征能力和跨任务迁移能力。SUCCEED不仅为细胞类型特异调控图谱预测、低质量表观基因组数据增强和三维基因组结构推断提供了新的计算工具,也为复杂疾病相关非编码变异功能解释、稀有细胞类型调控机制解析和多组学数据整合分析提供了方法基础。同时,该研究也为构建更加通用、可迁移的DNA基础模型提供了新的思路。
生命科学学院在读博士生孙灿壮、硕士生何志杰、博士生张士飞为论文共同第一作者,军事医学科学院陈河兵副研究员、李昊副研究员、伯晓晨研究员和生命科学学院廖明帜教授为共同通讯作者。
该研究得到了国家重点研发计划、国家自然科学基金、陕西省杰出青年科学基金及北京市科技新星计划等项目的资助。
编辑:王学锋
终审:刘玉峰