Paper Diary-2023-Machine learning meets omics applications and perspectives (2022)
Machine learning meets omics applications and perspectives
2022年的一篇生物信息和深度学习综述《Machine learning meets omics: applications and perspectives》,记录一下。
本文描述了人工智能如何应用于组学研究,并回顾了机器学习和最广泛的组学之间接口的最新进展,包括基因组学、转录组学、蛋白质组学、代谢组学、放射组学以及单组学细胞分辨率。坐着还讨论并综合了组学中机器学习的想法、新见解、当前挑战和观点。
ML in Genomics
基因组学是对生物体完整 DNA 集的研究,重点关注基因组的结构、功能、进化、绘图和编辑。新一代基因组技术使生物医学研究人员能够获得大量基因组数据,原则上可以通过高通量测量获得数十亿个基因组坐标和其他相关数据信息[15]。然而,基因组数据通常是高维且稀疏的,这使得分析变得困难,从而为机器学习提供了捕获数据中的依赖关系,然后得出新的生物学假设的机会。随着硬件和算法的不断完善,加上大规模、多方面的生物医学数据,机器学习方法在广泛的基因组学研究中取得了显着的成功,包括但不限于 3D 基因组的重建(reconstruction of 3D genome)、表观基因组和染色质状态的建模(modeling of epigenomic and chromatin states)、基因组注释和转录(genome annotation and transcription)以及基因组编辑(genome editing)。
3D 基因组的重建
真核基因组的空间组织确保基因组 DNA 折叠以适合细胞核内,但仍可用于许多遗传和生物功能,例如基因调节(gene regulation)、基因表达(gene expression)、转录调节(transcription regulation)、DNA 修复(DNA repair)和DNA复制(DNA replication)。了解真核基因组的 3 维 (3D) 组织对于解释细胞内重要的染色体活动至关重要。在过去的十年中,实验和计算工作一直致力于揭示 3D 基因组组织。各种基于染色体构象捕获 (3C) 的技术(例如 3C、4C、5C、Hi-C、TCC、ChIA-PET 以及后来的单细胞 Hi-C)已被开发用于研究 3D 分层结构,例如染色体区室、拓扑相关域 (TAD) 和染色质环。尽管高通量实验技术已经证明了各种核和细胞过程中的基因组组织和功能相关性,但它们没有足够高的分辨率来解决调控元件之间的联系,研究 base-level 水平遗传变异对基因组结构或经济高效地应用于大规模样品。因此,已经开发了计算方法,特别是机器学习模型来补充和推进 3D 基因组的实验研究。用于预测 3D 基因组结构的计算方法在机器学习模型中有所不同,但可以根据其输入(训练)数据分为四类:(1) 单独的基因组序列,(2) 基于 3C 的相互作用,(3) 源自于的染色质状态表观遗传修饰和(4)上述数据的混合。这些方法的目标或输出也不同,包括 3D 基因组重建、基因组区室化检测、拓扑关联域 (TAD) 识别和染色质环(调控元件之间的相互作用)预测。我们根据训练数据类别对这些机器学习方法进行分组总结。
使用基因组序列预测染色质相互作用不仅可以用最少的实验数据扩展对新细胞类型中基因组组织的理解,还可以使用 CRISPR 等基因组编辑技术预测非编码调控区域扰动的影响。因此,许多努力都集中在利用 DNA 序列特征来预测染色质相互作用。Fudenberg 等人设计了一个基于 CNN 的模型叫做 Akita,仅根据 DNA 序列即可准确预测基因组折叠,可用于进行计算机模拟饱和诱变、解释 eQTL、预测结构变异和探测物种特异性基因组折叠。Cao 等开发了染色质相互作用神经网络 (ChINN),仅使用相互作用的开放染色质区域的 DNA 序列来预测开放染色质区域之间的染色质相互作用。更具体地说,Trieu 等人开发了 DeepMILO,这是一种深度学习方法,用于预测非编码序列变异对 3D 染色质结构的影响。
表观基因组修饰和 3D 基因组相互作用紧密相关,但目前,它们是通过不同的技术来测量的。已经开发出用于综合解释甚至从表观基因组和染色质状态重建 3D 基因组的计算方法。 Zhu等人提出 EpiTensor 可以根据组蛋白修饰、染色质可及性和 RNA-seq 的 1D 表观基因组在拓扑关联域(TAD)内构建 3D 空间关联。Fortin 等人使用来自几个不同平台的表观遗传数据的长期相关性来估计不同细胞类型中的 A/B 区室,以及细胞类型之间的变化。Qi 等人引入了一种计算模型,可通过染色质状态以五千碱基分辨率预测 3D 基因组组织
高通量、下一代基于 3C 的技术的出现使我们能够确定一对(或多对)基因组区域(箱)是否在 3D 物理位置上非常接近。空间邻近的基因组区域通常被称为“相互作用”。在过去的十年中,人们提出了许多计算方法和算法,用于根据 3C 数据构建染色体和基因组 3D 结构。例如,Schwessinger 等人基于迁移学习和DNN开发了 DeepC,并使用组织特异性Hi-C数据训练模型。麦凯等人。Oluwadare 等人全面回顾了从 3C 数据重建 3D 染色体和基因组结构的机器学习方法。
基因组、表观基因组、转录组和染色体构象数据的积累催生了许多机器学习方法,这些方法整合了多个组学数据以进行 3D 基因组预测。Bkhetan 等人开发了 3DEpiLoop 算法来根据表观基因组数据和转录因子谱预测染色质循环相互作用。Whalen 等人实施了一种名为 TargetFinder 的算法,该算法集成了 TF、组蛋白标记、DNase-seq、表达和 DNA 甲基化的数据,以预测整个基因组中各个启动子-增强子的相互作用 [39]。最近,为了减少迄今为止仅在极少数人类细胞系中同时可用的表观基因组数据的数量,Li 等人开发了 DeepTACT,这是一种引导深度学习模型,利用序列特征和染色质可及性信息来预测单个调控元件水平的染色质接触。
表观基因组和染色质状态的计算建模
表观基因组由 DNA 和组蛋白的化学修饰记录组成,这些修饰独立于 DNA 序列调节基因组活性。表观基因组的改变可能导致染色质结构的变化和基因组功能的变化。表观基因组技术的最新进展使得涉及高通量数据和基于机器学习的生物信息学的研究能够识别易受表观遗传修饰影响的基因组区域,包括 DNA 甲基化变化(例如 CpG)、组蛋白修饰或染色质结构变化(例如核小体定位)。人们已经开发了各种将表观遗传数据的特征生成、特征选择和机器学习相结合的计算方法,包括结合主动学习(ACL)来解决生成表观遗传数据的费用问题,不平衡类学习(ICL)来解决相对较低的发生率数据和深度学习 (DL) 中的表观突变可解决手动定义相关基因组特征的困难。
基因组特征可以包括 DNA 序列和表观遗传成分。许多努力已将遗传特征(例如重复元件、CpG 密度、响应元件或特定序列)和表观遗传特征(例如 DNA 甲基化或组蛋白介导的核小体定位和染色质状态)融合到机器学习模型中,以进行功能解释和分析。基因组的预测。 Whitaker 等人提出了 Epigram,用于根据 DNA 基序预测组蛋白修饰和 DNA 甲基化模式。李等人建立了 gapped k-mer 支持向量机 (gkm-SVM),用于学习人类调控元件和调控变异的影响,这些调控变异是针对 DNase I 超敏反应、独特的组蛋白修饰和转录因子结合而生成的。Zhou 等开发了一种基于深度学习的算法框架 DeepSEA,它直接从大规模染色质分析数据中学习调控序列代码,从而能够以单核苷酸敏感性预测序列改变的染色质影响。Alipanahi 等人引入 DeepBind 通过深度学习预测 DNA 和 RNA 结合蛋白的序列特异性。Kelley 等人开发了 Basset 深度卷积神经网络 (CNN),研究人员可以使用它对感兴趣的细胞类型进行单一测序分析,同时了解细胞的染色质可及性代码,并注释基因组中的每个突变及其对当前可及性和潜在的影响可访问性的潜力。Kelley 等人开发了另一种基于 CNN 的机器学习系统,可以仅根据 DNA 序列预测大型哺乳动物基因组中细胞类型特异性的表观遗传和转录谱。Hoffman 等人开发了深度学习模型 DeepFIGV,仅使用 DNA 序列作为输入即可准确预测遗传变异对染色质可及性和组蛋白修饰的影响。Zeng 等人介绍了 CpGenie,这是一个基于序列的框架,它使用深度卷积神经网络 (CNN) 学习 DNA 甲基化的调控代码,并使用该网络来预测序列变异对近端 CpG 位点 DNA 甲基化的影响。机器学习模型也应用于单细胞表观基因组。例如,Angermueller 等人开发了 DeepCpG,一种基于深度神经网络 (DNN) 的计算方法,用于预测单细胞中的甲基化状态。
ML for Genome Annotation and Transcription Regulation
基因组注释是标记生物体 DNA 序列并表征其生物学功能的过程。基因组学的第一步和早期工作自然集中于构建基因组注释,为此开发了机器学习方法来识别一些主要类别的基因组元素,例如蛋白质编码基因(proteincoding genes)、非编码RNA(ncRNA)、微小RNA(miRNA)、转录剪接异构体(transcript splicing isoforms)、调控元件(regulatory elements)、蛋白质结合位点/基序(protein-binding sites/motifs)和顺式调控结合模块(cis-regulatory binding modules)。基因组、转录组和表观基因组信息的快速积累为组学信息的整合创造了新的机遇,也带来了挑战,而不仅仅是依靠序列本身来注释基因组。同时,基因组注释的目标已经从识别不同的基因组部分(例如基因和非编码区)扩展到阐明它们的功能,包括调控元件及其相互作用。例如,Encyclopedia of DNA Elements (ENCODE) 项目代表了为此目的最集体的努力。
从基因组序列中查找基因
随着新测序技术的出现,海量基因组序列数据可用于基因和非编码元件的计算识别。主要工作是识别原核和真核基因组中的基因,以及预测真核生物中复杂的外显子结构。 Luedi 等人基于使用 DNA 序列作为特征的多种分类算法的预测,识别出了 156 个新型人类印记基因。 Mark Borodovsky 使用具有长短期记忆 (LSTM) 的循环神经网络 (RNN) 来证明深度学习网络注释基因组序列和评估来自 NCBI 数据库的原核序列的不同方法的潜力。后来他提出了两种新的基因组注释算法:(1) GeneMarkS2+,除了 PGAP 之外,NCBI 开发的原核基因组注释管道,以及 (2) 真核自我训练基因查找器 GeneMarkEP+,在迭代参数化中利用直系同源蛋白质的足迹基因组组织的隐马尔可夫模型(HMM)统计模型。
识别顺式调控元件和反式作用 bandings
在人类基因组中,大多数DNA序列都是非编码区,其中含有许多顺式调控元件,包括启动子、增强子等。近年来,利用机器学习和深度学习方法在非编码区域识别方面取得了许多成果。仅使用 DNA 序列或 ATAC-seq 特征就可以在基因组规模上准确识别增强子。此外,在非编码RNA的识别和分类方面也取得了良好的成果。然而,传统的神经网络需要大量的训练数据。 CNN 是一类深度学习神经网络,已成功用于学习 DNA 序列模式,例如 DNA 和 RNA 结合蛋白的序列模式、DNA 甲基化或染色质分析数据。例如,Alipanahi 等人构建了 DeepBind 模型来预测 DNA 和 RNA 结合蛋白的序列特异性。使用该模型,即使模式在序列中的位置未知,也可以找到新的模式。最近,Long 等人。提出了一种通过整合基因组序列、结构数据和统计学习来预测转录因子结合位点的方法。
预测增强子-启动子相互作用和基因表达
启动子和增强子是控制基因表达的空间和时间模式的最重要的顺式调控元件。除了识别这些调控元件之外,一个主要的挑战是表征染色体环,通过该染色体环,远端增强子在三维空间中靠近靶基因并作用于靶启动子。这种长程增强子-启动子(E-P)相互作用正在成为组织特异性表达和解释调控变异的重要决定因素。尽管基于 3C 的实验技术揭示了染色质相互作用,但它们只能覆盖更高级别的 3D 基因组架构,例如 TAD,而不是特定的增强子-启动子相互作用。因此,用于预测跨多个组织或细胞系的增强子和启动子之间相互作用的计算方法正在出现。
Roy 等人提出了一种基于监督机器学习框架的预测建模方法,名为 RIPPLE。 RIPPLE 使用 5C 实验检测到的相互作用来预测细胞系特异性的长期调控相互作用。后来,惠伦等人提出的 TargetFinder,这是一种机器学习方法,可根据功能基因组数据预测增强子-启动子相互作用,例如来自组蛋白修饰或转录因子的 ChIP-seq 和 DNase I 超敏感位点测序 (DNase-seq)。然后,Cao 等人提出了一种监督机器学习方法,该方法结合全局和样本特定的表观遗传信息,通过使用随机森林分类器预测增强子-启动子相互作用,称为 JEME。最近,曹等人。受到以下事实的启发:使用 DeepSEA 和 DeepBind 等方法仅从 DNA 序列即可预测染色质状态和许多转录因子结合位点。他们开发了一种计算方法,即染色质相互作用神经网络 (ChINN) ,仅使用相互作用的开放染色质区域的 DNA 序列来预测开放染色质区域之间的染色质相互作用。
机器学习遗传变异的影响
除了那些相对较大的调控元件之外,单个核苷酸的变异也对基因表达和表型具有关键影响,尽管它们可能位于非编码区。全基因组关联研究(GWAS)报告了数十万种与复杂性状相关的变异,包括疾病和病理表型。大多数与疾病相关的变异存在于非编码DNA中。识别非编码变异的功能效应一直是 GWAS 之后的重大挑战,机器学习和深度学习在识别非编码变异及其效应方面也发挥着重要作用。基于 SVM 的模型可用于对有害变异进行分类并对变异的致病性进行评分。Schubach 等人使用不平衡感知方法来预测常见的疾病相关突变,这明显优于不平衡感知的机器学习方法。最近,Zhou 等人利用深度学习方法开发了基于序列的 DeepSEA,可用于预测非编码突变效应。然后,他们构建了一个基于深度学习的框架 ExPecto,用于识别非编码突变并预测非编码突变对疾病的贡献。这些模型可以根据 DNA 序列准确预测组织特异性突变的转录效应,包括罕见或从未观察到的突变。
ML in Genome Editing
在过去的十年中,基因组研究人员已经远远超出了查明现有基因组序列和相关修饰的范围,而是进入了一个前所未有的、在实现之前从未想象过的更具创新性的时代,即基因组编辑。基因组编辑是根据需要,通过添加或删除特定基因片段或插入、删除或替换特定碱基来改造目标基因的序列或功能。从更广泛的意义上讲,基因组编辑还包括表观遗传编辑,这是一种指导人工转录因子或染色质修饰剂来调节靶基因表达或改变染色质状态的新兴技术。成簇规则间隔短回文重复序列(CRISPR)是应用最广泛的基因组工程系统,因其在基因剪切和粘贴方面的高精度和灵活性而被应用于靶基因修复和基因表达调控。近年来,基因组编辑技术非常流行,不仅用于生物学和医学目的,还用于解决计算挑战。无论是基因编辑还是表观遗传修饰,CRISPR 系统的关键是将编辑复合物精确引导至目标位置,这是通过精心设计的小引导RNA(sgRNA)来完成的。机器学习已积极应用于 CRISPR 系统(1)根据基因组背景设计 sgRNA 并预测切割趋势,(2)评估不同特征对 CRISPR 效率和选择性的重要性,以及(3)评估脱靶倾向等等。所有这些机器学习方法可以分为三类:基于对齐的方法、假设驱动的方法和基于学习的方法。
sgRNA的设计和选择是基因组编辑的第一步,也是最重要的一步,它决定了剪刀在基因组中的位置,并评估剪刀切割基因组的效率。 sgRNA 设计还需要对另一面进行系统评估,即脱靶效应,即如果使用它,可能会严重破坏基因组的其余部分。一些 sgRNA 可以干扰细胞群中几乎所有的目标等位基因,而另一些则没有表现出明显的活性。然后,人们可以重新对指南进行排序,以便在裂解趋势和脱靶倾向之间进行权衡。目前,有许多通过机器学习或深度学习方法开发的 sgRNA 设计工具,例如SVM模型、CNN模型等,可以帮助研究人员获得高效的sgRNA。 DeepCpf1 的开发是为了使用 sgRNA 序列特征和染色质可及性,基于 CNN 来预测 Cpf1 的 sgRNA 编辑效率。 DeepCRISPR 除了DNA序列特征之外还引入了四种表观遗传特征,并利用自动编码器的原理自动提取有效信息。建立了 sgRNA 靶标切割和脱靶倾向预测等多种模型。 CNN_std 仅使用序列特征来使用“XOR”编码设计构建二维输入矩阵,并利用 CNN 进行预测。此外,Dimauro 等人。提出了一个名为 CRISPRLearner 的模型,用于预测 sgRNA 靶向敲除活性。Song 等人建立了基于深度学习的模型来预测任意目标序列中碱基编辑器定向编辑的效率和结果频率。
除了 sgRNA 设计之外,另一个活跃的主题是预测编辑的结果,即预测特定引导 RNA 的靶向位点将进行哪种类型的修复。可能性包括插入单个碱基对、小的缺失或称为微同源缺失的较大变化。序列修复的准确预测可以让研究人员通过计算来预测精确的引导 RNA,从而重现精确的人类患者突变,从而开发出更好的研究模型来研究遗传疾病。在《自然》杂志上发表的一项研究中,Sherwood 及其同事描述了他们如何训练一种名为 inDelphi 的机器学习算法来预测用 Cas9 剪断的 DNA 的修复情况。该算法显示,在超过 50% 的编辑产品中,使用的指导 RNA 中有 5-11% 在人类基因组中诱导了单一的、可预测的修复基因型。另外,Felicity Allen 和同事创建了一种名为 FORECasT(Cas9 目标修复事件的有利结果)的算法来完成同样的事情。基于 41 630 个引导 RNA 的文库以及修复前后目标位点的序列,该模型表明大多数修复是单碱基插入、小缺失或较长缺失(称为微同源介导的缺失),并且基于特定序列存在于 Cas9 切割位点。
ML in Transcriptomics
转录组学是对转录组(由基因组产生的完整 RNA 转录本)的研究。随着高通量方法的发展,研究人员可以全面、快速地获取物种在某种状态下特定组织或器官的几乎所有转录序列信息及其表达。然而,如此大量的转录组测序数据的分析和处理给传统的分析方法带来了挑战。机器学习和深度学习可以处理大规模高维数据。它已广泛应用于转录组数据分析,帮助全面研究基因表达、功能和结构,进而揭示发育过程和疾病进展中的特定生物过程和分子机制。
基因表达的预测
基因表达定义了基因组的哪些部分以多少量转录。基于转录测序(RNA-seq)的基因表达分析已成为转录组学研究的重要组成部分。机器学习具有很强的能力来学习此类数据集上的分层非线性模式,并且在根据遗传和表观遗传信息预测基因表达方面发挥着重要作用。基于深度学习,Chen 等人提出了一种多任务多层前馈神经网络,称为 D-GEX,用于基于标志基因的目标基因表达预测。组蛋白修饰是影响基因调控的另一个重要因素。从组蛋白修饰信号预测基因表达的计算方法对于理解它们在基因调控中的综合作用至关重要。研究人员使用深度卷积神经网络建立了一个称为 DeepChrome 的判别框架,以预测组蛋白修饰的基因表达。发现深度学习模型在基因表达预测任务中优于支持向量机、随机森林等最先进的模型。
剪接的预测和分类
剪接是转录的另一个方面,它定义了真核基因组的转录方式。选择性剪接可以增加转录组和蛋白质组的多样性,这是一种遗传和表观遗传调控的mRNA预处理。 pre-mRNA 的剪接高度准确,异常剪接可能导致疾病甚至癌症。许多研究表明深度学习可以准确预测剪接并对剪接类型进行分类。Leung 等人使用 DNN 构建了一个模型,根据 RNAseq 数据预测单个组织中的剪接模式。此外,研究人员还开发了基于 DNN 的模型来预测不同背景下的剪接模式,包括使用基因组序列和表观遗传特征作为输入的发育和疾病。Jaganathan 等人基于深度残差神经网络构建了 SpliceAI。该模型使用前 mRNA 转录本的基因组序列作为输入。此外,其他研究人员还开发了一种仅使用局部 RNA 序列基于人类内外显子选择性剪接行为的剪接分类方法 。
转录因子结合位点的预测
在基因表达中,转录因子(TF)发挥着重要作用。转录因子(TF)可以结合 DNA 序列的特定区域并调节基因表达。 TF 结合位点及其邻近突变对表达有很大影响,并可能导致一些复杂的疾病。 TF 结合的详细分析对于进一步研究基因表达具有重要意义。近年来,机器学习尤其是深度学习方法在相关领域发挥了巨大的作用。先前基于位置权重矩阵(PWM)的模型存在诸如序列 GC 偏差等问题。之后,基于机器学习和 ChIP-seq 数据构建了一个模型来预测影响转录因子结合的调控变异。 Sherwood 等人利用机器学习方法设计了 PIQ 模型,可以识别转录因子(TF)结合位点。 DNase I超敏分析和测序(DNase-seq)实验可以确定700多个 TF 结合位点,其准确性与 ChIP-seq 相当。机器学习的应用极大地提高了模型的预测性能。此外,深度学习方法可以直接从海量数据中提取特征。基于 CNN 开发的DeepBind 在预测 DNA 和 RNA 结合蛋白的序列特异性方面具有更好的性能。然而,CNN 训练的模型只关注当前状态,无法捕捉先前状态和未来状态对当前状态的影响,而 RNN 可以有效地从时间序列数据中提取特征信息。Shen 等提出了一种使用双向门控循环单元(GRU)网络的 KEGRU 计算方法。该方法可以从 DNA 序列中提取特征信息,然后利用特征信息来预测 TF 结合位点。该模型与基于 CNN 的模型不同,可用于处理变长输入序列。此外,还使用机器学习方法开发了模型来描述 TF 与染色质的特异性、活性和相互作用。
使用转录组学进行辅助诊断
诊断是医疗的核心部分。医生在获取并解释患者信息后提供诊断结果。但这种手动方法费时费力,误诊概率较高。随着计算机辅助诊断(CAD)的出现,这些问题得到了显着改善。随后,机器学习算法特别是人工神经网络(ANN)的快速发展,极大地提高了诊断的准确性和效率。人工神经网络可以自学习、记忆和预测事件的发展。在疾病分类和诊断方面,人工神经网络比概率统计方法和数学模型等传统方法具有更好的性能。例如,如上所述,卷积神经网络(CNN)特别适合处理图像数据。此外,机器学习结合基因表达数据还可以对多种疾病起到很好的辅助诊断作用。例如,基于SVM开发的工具可以通过挖掘微阵列表达数据来预测肌病亚型。另一种深度学习模型可以根据基因表达数据系统、准确地预测药物性肝损伤。此外,它还被证明可以辅助诊断精神分裂症等精神疾病[98]和帕金森病(PD)等神经系统疾病。目前,已经从转录数据中鉴定出了一系列 PD 基因生物标志物。此外,大量研究证明,机器学习结合基因表达数据已广泛应用于癌症的辅助诊断。这些应用包括但不限于癌症分类、预测胰腺导管腺癌(PDAC)具有潜在治疗意义和预后的分子亚型、肝细胞癌的早期诊断和生存预测 、预测癌症复发等。总之,机器学习不仅通过解释医学图像,还通过挖掘和分析基因表达数据来辅助疾病诊断。然而,数据不足仍然是一个常见的障碍。小规模数据训练的模型很难推广到其他项目。目前,许多数据库包含观察研究提供的遗传和临床信息。因此,开发新的机器学习方法来整合此类多队列数据可能很有价值。
蛋白质组学中的机器学习
蛋白质组学是指研究基因组中表达的所有蛋白质及其特性,主要包括蛋白质结构、蛋白质丰度、蛋白质活性、蛋白质修饰、蛋白质定位、蛋白质相互作用等。自人类基因组计划以来,各种生物医学数据量急剧增加。蛋白质组学的传统生化研究方法耗时耗力。基于机器学习的方法可以有效地处理大量蛋白质序列。然而,它很大程度上受到特征提取的影响。并且模型的最大性能是有限的。深度学习能够自动学习和分类抽象特征,为蛋白质组学的多领域研究提供了线索。
在生物质光谱分析中的应用
质谱(MS)是蛋白质组学中的一项关键技术,它利用样品离子的质荷比来分析蛋白质的成分和结构。质谱仪器发展迅速,但数据处理方式却没有跟上,这已成为蛋白质组学研究的瓶颈。机器学习,尤其是深度学习,可以解决蛋白质组数据的高维性和稀疏性。在生物量光谱中,机器学习在许多领域表现出色,例如从头测序、肽二级谱的碎片离子预测、肽性质预测、数据独立分析和质谱成像。传统上,发现未知序列的新蛋白质的一个重要方法是从头测序。但准确率仍不能令人满意。基于机器学习算法,DeepNovo 被开发用于从头开始对肽进行测序。而且准确率远高于 de novo 方法。此外,pDeep 算法使用双向长短期记忆递归神经网络来预测肽片段的二级谱。另一方面,在液相色谱-质谱串联分析中,预测肽的保留时间具有重要价值。 DeepRT 就是为此目的基于深度学习而开发的。但特征识别的灵敏度并不是特别高。佐霍拉等人开发了基于卷积神经网络(CNN)的 DeepIso,用于提取肽色谱和质谱特性。此外,CNN还用于质谱成像,对肺癌中的鳞状细胞癌和腺癌两组样本进行分类。综上所述,机器学习的应用对于提高肽数据检索具有重要意义。机器学习算法可以更准确地预测未知肽片段的序列。同时,深度学习算法在蛋白质组定量和表征过程中肽片段的质谱和色谱特性提取方面具有一定的应用潜力。
筛选蛋白质生物标志物
生物标志物在疾病筛查、监测、诊断、指导分子靶向治疗和评估疗效等方面发挥着重要作用。假设检验和回归分析等传统方法往往受到分类边界和变量相关性的限制。因此,它不适合现有的生物标志物发现策略。然而,机器学习方法没有这样的限制。在处理蛋白质生物标志物筛选任务时,无监督学习方法主要用于分析数据重复性、检查异常值、结果可视化以及检查标志物分离结果。而监督学习方法的主要功能是评估蛋白质生物标志物组合的分类效果。目前,质谱(MS)和机器学习等蛋白质组学技术的结合已被广泛使用,以进行完整的生物标志物筛选。An 等人使用深度信念网络(DBN)来筛选阿尔茨海默病的蛋白质诊断标志物。他们最终获得的标记组包含 20 个蛋白质,诊断准确率超过 90%。他们还发现 ACRP30 蛋白与阿尔茨海默病有很强的相关性。Yan 等人确定了三个关键生物标志物(乳酸脱氢酶、淋巴细胞和高敏 C 反应蛋白)的水平,用于识别有 2019 年冠状病毒病(COVID-19)风险的患者。然后他们建立了一个机器学习模型,可以至少提前 10 天预测 COVID-19 患者的个体死亡率。机器学习已被广泛用于评估蛋白质生物标志物分类的效果。但仍然存在一些挑战,如过拟合、黑盒、计算成本、模型选择等。但这并不妨碍机器学习在生物蛋白质生物标志物筛选中具有重要的应用前景。
核酸结合蛋白预测
核酸结合蛋白对多种生物过程具有重要意义。核酸结合蛋白的鉴定主要通过生化和标记技术进行。但识别的准确性和规模仍存在一定的局限性,且耗时长、成本高。最近,一些研究人员利用蛋白质特性(例如结构域序列)来预测核酸结合蛋白,但没有达到预期的准确性。目前,大规模数据集可以通过一些高通量测量获得,例如蛋白质结合微阵列(PBM)、指数富集配体的高通量系统进化(SELEX)和CHIP。由于高通量测量的可用性,机器学习在预测核酸结合蛋白方面比其他现有方法要准确得多。目前,已经开展了大量的计算研究,包括DNA结合域/蛋白质识别、DNA主题对发现、蛋白质-DNA或-RNA对接等。Alipanahi 等人开发了基于 DeepBind 的深度学习来预测蛋白质序列的核酸结合特性。同时,另一项研究发现支持向量机可以准确识别与核酸结合的残基,这有助于研究非特征蛋白与核酸之间的相互作用。然而,DNA 和 RNA 结合残基之间存在交叉预测的常见问题。未来需要付出更多努力来减少交叉预测,而机器学习必将为此提供强有力的支持。
预测蛋白质-蛋白质相互作用
近年来,蛋白质序列数据以惊人的速度积累,这有利于蛋白质-蛋白质相互作用(PPI)的检测。 PPI 将有助于更好地了解蛋白质的功能和三维结构。 PPI还为解释基因复制、转录、翻译、信号转导、细胞周期调节、免疫反应等一系列生理活动提供了有用的线索。然而,获得生物体中所有可能的二进制 PPI 相关数据仍然很困难。一些公共数据库如 IntAct 和 BioGRID 可用于查询 PPI,但大多数这些交互仍然不完整。而且,PPI 网络是动态的,实验 PPI 数据缺乏组织特异性或特定条件(如健康和疾病状态),这使得 PPI 相关研究变得更加复杂。最近,大多数研究人员认为使用计算方法来研究蛋白质-蛋白质相互作用非常有用。结合实验方法,通过机器学习可以有效地发现 PPI。不同的数据通常需要不同的机器学习算法。用于PPI预测的两种流行的机器学习方法是随机森林分类器和支持向量机,而贝叶斯概率推理主要用于对高通量 PPI 数据集的置信度进行评分。基于机器学习,分层统计机械模型(HSM)被开发来预测 PPI,它可以准确预测多个蛋白质家族之间肽结合域(PBD)-肽相互作用的亲和力。此外,深度学习也被广泛应用于 PPI 预测。例如,基于领域的集成方法用于通过 DNN 预测 PPI。以及Hashemifar 等人提出了一种深度学习模型 DPPI,仅通过序列信息就可以对PPI进行建模和预测。
此外,蛋白质翻译后修饰(PTM)在蛋白质功能的调节中发挥着重要作用。 PTM一般是指化学基团或蛋白质等各种官能团在氨基酸残基上的共价结合。作为生物功能调节的重要机制,PTM 的识别和理解对于生物学和疾病研究至关重要。目前,已经开发了大量用于 PTM 位点预测的机器学习方法。基于 SVM,Musite 被提出来预测蛋白质磷酸化位点。它使用 K 最近邻 (KNN) 评分、无序评分和氨基酸频率作为特征。此外,GlycoEP 可以通过 SVM 预测 N、O 和 C 连接的糖基化位点。许多其他方法,例如 ModPred 和 DeepPhos 在预测 PTM 位点方面也表现良好。此外,还开发了一些数据库来注释 PTM 位点,例如 dbPTM、AWESOME 等。但是,大多数方法不支持大规模批量预测。Wang 等人构建了一个新的网络服务器 MusiteDeep,它以原始蛋白质序列作为输入,并使用 CNN 进行 PTM 位点预测。它可以同时为多个 PTM 提供预测和可视化。并且在准确性和速度方面都有一定的优势。此外,并非所有检测到的修改都是有效的。因此,研究人员很难确定应该在实验中进行哪些修改。最近,SAPH-ire TFx 被提出用于从大规模数据集中预测功能 PTM 位点。对于确定具有生物学意义的 PTM 具有一定的指导意义。
ML in Metabolomics
代谢组学是模仿基因组学和蛋白质组学的研究思路。它是定量分析生物体内所有代谢物,发现代谢物与生理、病理变化之间关系的研究方法。它也被认为是诊断高度异质性疾病的新技术。质谱、色谱和核磁共振获得的大规模代谢组数据的稀疏性往往对传统方法提出巨大挑战。机器学习算法适合处理此类数据并引起了人们的关注。各种机器学习算法[134]被用来解释这些大规模的代谢组数据。目前,机器学习在数据处理、代谢表型分层、代谢建模等一系列代谢组学研究中取得了令人瞩目的成就。
数据处理与分析
随着机器学习的快速发展和应用,代谢组学的数据处理和分析能力得到进一步提高。通过机器学习算法训练的模型用于模式识别(有时称为多元分类)。长期以来,偏最小二乘判别分析(PLS-DA)、极限学习、ANN、SVM 等机器学习方法被应用于代谢组学数据分类。其中,PLS-DA一直占据主导地位。但目前的研究表明,SVM在代谢组学数据分类中的应用已经超越了 PLSDA。 SVM具有较高的预测精度和分类精度。与传统的基于回归的方法相比,人工神经网络开发的深度学习主要用于估计特定峰值的加权检测概率,并决定是否将其从最终数据集中排除[136]。研究表明深度学习还可以消除假阳性峰值。例如,DNN 模型可以在不降低真阳性率的情况下消除 90% 的假阳性峰值(噪声)。在代谢组学研究中,串联质谱 (MS/MS) 通常用于识别“未知”代谢物(即参考光谱和/或结构信息不可用的代谢物)。然而,由于可用的 MS/MS 参考光谱数量有限,仍然存在一些挑战。基于 DNN 的开源框架 DeepMASS 可用于有效识别“未知”代谢物。此外,代谢组学数据处理需要足够的样本进行质量控制。并且数据处理和仪器性能的质量控制(QC)/质量保证(QA)也需要仔细检查。一般来说,深度学习方法可用于改进和自动化代谢组学分析的 QC/QA 步骤。 DNN 可用于检测大规模非目标实验生成的稀疏 MS。然后对数据进行归因并填补空白。然而,其准确性尚未得到评估,需要进一步努力。
代谢表型的分层
代谢表型是指不同个体代谢过程和水平的特征。它可以通过代谢物的存在、代谢物的含量、代谢物之间的比例和代谢谱来描述。这一概念广泛应用于药物代谢组学。机器学习,尤其是深度学习,在代谢组学研究中表现出了优异的表现。它可以捕获代谢组学数据中复杂的代谢特征,从而提供有关受影响途径网络的推论。Inglese 等人从人类结直肠癌活检中提取基于 MS 的成像数据集。然后他们使用 DNN 结合参数化 t 分布随机邻域嵌入来揭示癌症的代谢异质性。此外,一些研究表明,深度学习框架可用于基于代谢组学对乳腺癌雌激素受体(ER)状态进行分类。事实证明,预测精度高于其他机器学习方法,表明深度学习具有更好的揭示疾病生物学的能力。最近,提出了一种基于 DNN 的新方法。这种综合监督分类和回归技术可用于代谢表型分层和代谢物选择。而且,同样,该模型具有较高的分类精度。但其分类性能随样本量呈线性变化。其他人集成了多种 DNN 分类器和统计方法,并开发了集成 DNN (EDNN) 算法来提高分类和回归性能。
代谢模型的基因组规模构建
机器学习在代谢建模方面也取得了良好的发展和应用。主要用于建模过程中模型参数的确定、代谢网络分析和模型应用。基因组代谢模型(GEM)是一种数学模型,包括特定生物体或细胞基因组的代谢反应,以及酶和基因的关联。它为生物系统中的代谢通量建模提供了一个综合平台。并已广泛应用于人体新陈代谢的模拟。建模过程采用基于约束的定量建模方法。这种方法将生化和遗传信息结合在计算框架中。在建模过程中,机器学习经常用于优化参数并测试不同的输入条件。此外,越来越多的研究表明,机器学习与 GSM 相结合可以提高生物标志物(蛋白质/酶和代谢物等)的识别能力。这种组合还可用于量化代谢物通量、评估代谢物分泌、预测代谢基因和评估药物疗效。然而,机器学习在代谢组学中的应用远不止这些。应用还包括确定代谢相关药物副作用的预测因素、基于生成小分子碰撞截面(CCS)值的机器学习的预测以及疾病早期代谢标志物的识别。机器学习方法在代谢组学中具有巨大潜力。它可以捕获数据中复杂性状的代谢特征并完成分析和解释。然而,由于实验方法的限制、样本量小、缺乏可解释性以及普遍缺乏足够的参考,训练和验证数据仍然是挑战。
ML in Single-Cell Omics
单细胞组学是在单细胞水平上研究基因组、转录组、蛋白质组和代谢组。通过这种单细胞水平的研究,研究人员可以更好地了解干细胞分化、免疫细胞功能、神经细胞发育和癌细胞病理等生物学和病理机制。此外,精准医学研究近年来已成为世界范围内的重点研究项目。单细胞研究重点解决生物异质性问题。因此可以在一定程度上指导疾病特别是一些重大和罕见病的治疗和预防和控制。因此,精准医疗发展的需求也需要加快单细胞技术的研发。单细胞转录组测序作为单细胞组学研究的关键技术之一,目前应用最为广泛。自唐等人以来。 2009年完成了第一个单细胞RNA测序(scRNA-seq)工作,scRNA-seq不断得到改进。近年来,随着一些大规模商业平台的出现,scRNA-seq已经很容易实现。它已成为全细胞表达分析的常用方法。但 scRNA-seq 数据的解读仍有很大的发展空间。目前,机器学习被广泛用于处理 scRNA-seq 数据。例如,它可以执行去噪、丢失插补和批量效应校正。
dropout 插补和批量效应校正
单细胞 RNA 测序 (scRNA-seq) 可以同时研究数万个单细胞转录本。因此,研究人员可以在单细胞水平上研究基因表达模式,从而更准确地研究细胞异质性。然而,由于当前技术的限制,scRNA-seq数据中往往存在大量噪声。在挖掘这些数据之前,通常需要进行去噪。机器学习方法在去噪方面表现良好。目前,已经开发了许多机器学习方法来对 scRNA-seq 数据进行去噪,并且更多的方法正在开发中。除了噪声之外,scRNA-seq 数据通常包含过多的零,由于 RNA 捕获率较低,这些零大多是"false"零。这种情况通常被称为 dropout。另一个不可避免的混杂因素是由于样本之间技术操作的差异而产生的批次效应,例如测序仪的类型,甚至运行样本的技术人员[157]。在处理 scRNAseq 数据时,dropout 事件和批次效应给下游分析带来很大障碍。因此,dropout 插补和批次效应校正在 scRNAseq 数据分析中几乎是不可或缺的。传统方法,如 scImpute 和 svaseq,在丢失插补和批量效应校正方面是有效的。近年来,深度学习和机器学习算法已被有效地用于dropout插补和批量效应校正,并且具有更好的性能。Eraslan 等人开发了基于深度学习的深度计数自动编码器(DCA)。 DCA 实现了一系列 scRNA 序列特异性噪声模型来解决 scRNA-seq 数据中的插补任务。 LIGER 是一种用于联合分析多个 scRNA-seq 数据集的集成算法,可以有效消除批次效应。最近,我们的小组开发了一种基于生成对抗网络(GAN)的插补方法,称为 scIGAN。我们将每个单个细胞的转录组重塑为灰色图像,并将丢失插补转换为图像修复。 scIGAN 对于丢失插补非常有效,并增强了各种下游分析。 ScIGAN 对于具有低表达和/或细胞间差异的基因很少的小型数据集具有鲁棒性。我们通过多种方式证明了 scIGAN 不仅是 GAN 在组学数据中的应用,而且还代表了 scRNA-seq 数据的一种竞争性插补方法。目前,有多种方法用于dropout插补和批量效应校正。然而,由于scRNA-seq数据集的不断扩展,许多数据集并没有提供完整的信息。另外,在校正批量效应时,可能会校正过度,从而丢失真正的底层数据结构。因此,我们期望更有效、更准确的dropout插补和批量效应校正方法。
细胞聚类和轨迹推断
scRNA-seq 数据分析大致可分为细胞水平和基因水平,其中核心步骤是细胞聚类,以识别细胞类型。如上所述,许多机器学习算法在 scRNA-seq 数据的预处理中表现良好。同时,它们在下游分析中也很受欢迎。许多研究人员已经使用机器学习来实现细胞聚类和轨迹推断。Abdelaal 等人使用 27 个公开的 scRNA-seq 数据集评估了 22 个分类器,这些数据集具有不同的大小、复杂性、技术和物种。他们发现大多数分类器在各种数据集上都表现良好。特别是,SVM 分类器总体表现最佳。此外,一些研究人员使用标记的单细胞数据集来训练 ANN 模型。然后他们提出了一种具有良好性能的细胞聚类监督分类器技术框架。此外,聚类和批量效应消除是相互关联的。理想的消除批次效应有利于获得更好的细胞聚类。基于DNN,提出了一种无监督算法DESC。与Seurat 3.0、scVI、BERMUDA等一系列先进的scRNA-seq 分析方法相比,DESC 可以消除复杂的批次效应并保留细胞聚类中的生物学变异。
细胞类型识别后,轨迹推断将有助于我们研究不同细胞的动态分化过程。轨迹推断就是通过数据挖掘出细胞的连续状态,从而计算推断细胞的发育轨迹。它为研究细胞周期、细胞分化和细胞激活等细胞动态过程提供了新的机会。在过去的几年里,基于不同算法的大量轨迹推理方法被开发出来,例如 Monocle、Waterfall、CellTree、scTDA 和 URD。可以根据数据的特征,例如数据集的大小和轨迹拓扑,选择最合适的轨迹推断方法。而且,这些现有方法具有很强的互补性。我们可以使用多种方法来确认轨迹假设和相关的下游分析。然而,大多数这些工具经常低估或高估底层拓扑的复杂性。最近,机器学习在数据预处理后的轨迹推断方面取得了良好的效果。结合潜在的分层混合模型和变分自动编码器,提出了一种概率方法 VITAE(Variational Inference for Trajectory by AutoEncoder),用于从后验近似推断轨迹。该模型可以调整混杂协变量以集成多个数据集。
除了单细胞转录组测序数据的处理和分析之外,机器学习还可以与单细胞质谱结合。它可以有效预测细胞表型,例如耐药癌细胞的表型。此外,机器学习在流成像技术和微流控芯片方面也得到了很好的发展。机器学习与单细胞组学研究的结合可以提供更全面、更准确的生理病理机制。可以预见,这将推动精准医疗的蓬勃发展。
ML in Radiomics
放射组学是指通过放射线照相技术(例如计算机断层扫描(CT)、磁共振成像(MRI)和正电子发射断层扫描(PET))高通量采集大量医学图像。随着医疗和信息技术的不断提高,各种医疗数据也在迅速积累。尤其是医学图像的输出量极高。图像数据包含大量反映人类健康的潜在信息。然而,这些数据的人工分析和处理效率低下,并且容易受到主观因素的干扰。功能强大的机器学习可以有效缓解这些缺点。它可以提取更高级的特征,同时消除主观因素的影响。深度学习方法,尤其是卷积神经网络(CNN),在图像数据方面表现出特殊的能力[180]。目前,机器学习算法与医学图像(如CT和PET)相结合已广泛应用于医学图像,如疾病诊断、疾病分类和病灶识别。