CD's second night

不同深度学习方法在数据特征提取中的应用及比较

type
status
date
slug
summary
tags
category
icon
password
APPLICATION AND COMPARISON OF DIFFERENT DEPTH LEARNING METHODS IN DATA FEATURE EXTRACTION
ABSTRACT
With the rapid development of single-cell sequencing technology, a vast amount of single-cell data is continuously being generated and accumulated. Identifying valuable information from this massive data has become a crucial task. Data mining, as an interdisciplinary field, is dedicated to analyzing large datasets to uncover patterns, key features, and other information, thereby extracting useful knowledge. Deep learning, a branch of machine learning, can achieve automatic feature extraction and representation learning from data, and thus has a wide range of application prospects in data mining..
The purpose of this thesis is to compare and analyze the application of different deep learning methods in bioinformatics data processing, and reveal the advantages and limitations of these methods in specific scenarios. In order to comprehensively evaluate the application effects of different deep learning models in the field of bioinformatics, this thesis makes an in-depth comparison and analysis of various models. These models include scDeepCluster, scGMAI, scGAC and so on, which have their own unique principles and functions and are suitable for dealing with different types of biological data. By comparing the performance of these models in processing single-cell RNA sequencing data and image data, it can be found that each model has its own unique advantages and applicable scenarios. For example, scDeepCluster effectively reduces and clusters high-dimensional data through a deep self-encoder, which is suitable for high-noise data; scGMAI uses generating confrontation networks to generate and modify data to make it outstanding in dealing with missing data and data enhancement; and scGAC uses graph convolution networks to capture the relationship network between cells, which is especially suitable for dealing with biological network data with complex structures. The difference between these models lies in their core algorithms and processing strategies. ScDeepCluster focuses on feature extraction and dimensionality reduction, scGMAI emphasizes data generation and modification, and scGAC focuses on relational modeling of structured data. Their respective advantages make them show specific application value and advantages in different bioinformatics data processing tasks.
Despite significant progress in applying deep learning to bioinformatics, improving model accuracy and generalization to handle more complex and diverse biological data remains a key future research direction. Innovations in optimizing algorithm design, reducing computational costs, and enhancing model interpretability will greatly advance the field of bioinformatics.
 
1.1 研究工作的背景与意义 在生物信息学和计算生物学领域,随着高通量生物技术的迅猛进步,我们得以轻松获取海量的生物数据,包括单细胞RNA测序数据[1]、空间转录组数据以及高分辨率的生物图像数据等。这些数据不仅为我们提供了前所未有的洞察能力,还极大地促进了大家对生物学过程的深入理解,为揭示疾病机制以及推动药物研发提供了强大的助力。 此外,深度学习技术的崛起为数据分析领域带来了革命性的变革。深度学习在处理大规模数据集方面的卓越能力,使其在生物信息学和计算生物学中成为不可或缺的重要工具[2]。利用深度学习技术,有助于我们能够更精准地分析海量的生物数据,推动相关研究进入新的阶段。 在生物技术中,单细胞测序技术能够高通量地分析单个细胞的基因表达,揭示细胞群体中的多样性和功能差异。这种揭示有助于我们更全面地探索细胞在生物学过程中的特定作用,并克服样本中细胞数量限制的问题,发现和研究那些罕见的细胞类型和状态。该技术在多个方面展现了其重要性。在细胞发育和分化过程的研究中,通过对单个细胞在发育和分化过程中的基因表达变化进行追踪和分析,我们能够深入了解细胞发育和分化的动态过程,对理解细胞命运决定的复杂机制以及调控网络具有重要意义。在个性化医学和精准治疗方面,单细胞测序技术通过精细分析个体细胞,有助于我们更好地理解个体间的遗传差异和疾病风险,为疾病预防、诊断和治疗提供个性化的解决方案。此外,该技术还有助于挖掘新的生物学知识和药物靶点[3],为生命科学研究和药物研发提供新的思路和方法。 而深度学习在单细胞数据分析中的应用进一步推动了这些研究的进展。深度学习模型通过对单细胞数据的特征学习和分类,实现了细胞类型的自动识别和分类,提高了细胞鉴定的准确性和效率。此外,深度学习方法还能够挖掘单细胞数据中的潜在模式和规律,揭示不同细胞状态和功能之间的差异和联系,为疾病的诊断和治疗提供更准确和全面的依据[4]。在基因调控网络建模[5]方面,深度学习也展现出了其独特的优势。利用深度学习模型学习基因之间的复杂关系和调控网络,我们可以构建出更加准确和精细的基因调控模型,从而深入理解基因的调控机制和信号传导路径,为疾病的发生、发展提供新的理论支持和治疗策略。 综上所述,单细胞测序技术结合深度学习方法,不仅能够深化我们对细胞和生物学过程的理解,还为人类健康和疾病治疗带来了新的突破和希望。这一领域的持续发展和创新,将为生命科学研究和应用开辟新的道路,为人类的健康和福祉作出更大的贡献。因此,这项研究不仅理论意义重大,也具有广泛的实际应用潜力。通过系统地比较和分析不同深度学习方法在数据特征提取中的应用效果,可以为单细胞测序数据的分析提供更为科学、高效的工具和方法。 1.2 研究现状 深度学习方法在单细胞RNA测序(scRNA-seq)、空间转录组等领域的研究呈现蓬勃发展的态势,并已取得一系列显著进展。 在scRNA-seq数据分析领域,深度学习技术已广泛应用于提高分析精准度与效率。哈尔滨工业大学与南方医科大学的研究团队开发的DeepCCI深度学习框架[6],能够从scRNA-seq数据中有效识别细胞间相互作用(CCI),突显了深度学习在处理复杂数据集以揭示细胞间互作的潜力。此外,还有利用深度学习方法对scRNA-seq数据进行插补,如结合拉普拉斯正则化的非负矩阵分解以及图注意力网络等方法,进一步丰富了数据处理手段。 在空间转录组数据处理方面,深度学习技术同样展现出强大的实力。中国科学院数学与系统科学研究院张世华团队开发的STA系列工具[7],借助人工智能技术推动空间转录组数据的计算与解析,取得显著进展。同时基于深度学习的空间域识别技术(DeepST)[8]的研发,通过预训练深度神经网络模型从组织形态学信息中提取图像特征,为空间转录组学数据挖掘提供了重要支撑。 1.3 本文组织结构 绪论:介绍研究背景、意义以及国内外研究现状。 理论基础:解释深度学习技术的基本原理,包括scGMAI[8]、scGAC[9]、scDeepCluster[10]等。 数据处理:使用代码计算每个数据集的含零率、细胞数和基因数,并评估聚类各类性能 方法比较:通过单细胞RNA测序数据,分析不同深度学习方法在单细胞数据上的特征提取和聚类性能。 结果分析:对比各种方法的优缺点,讨论其在不同测试数据上的表现差异。 讨论与展望:基于比较分析的结果,讨论深度学习技术在生物信息学中的应用前景,并提出可能的改进方向。 结论:总结本文的主要发现和展望。
第二章 不同深度学习模型的原理和功能 深度学习方法由于其卓越的数据处理和特征提取能力,在这一领域展现出了巨大的潜力和优势。下面对几种典型的深度学习模型:scGMAI[8]、scGAC[9]和scDeepCluster[10]在处理单细胞RNA测序数据和空间转录组数据中的表现及其优缺点进行了详细的分析和比较。 2.1 scGMAI scGMAI[8](Single-Cell Generative Model for Artificial Intelligence)是利用生成对抗网络(GANs)来处理单细胞RNA测序数据的创新方法。GANs由生成器和判别器两个相互竞争的神经网络组成,生成器负责生成虚拟数据,判别器则评估数据的真实性。通过这种对抗训练机制,scGMAI能够生成与真实数据高度相似的虚拟数据,从而在处理缺失数据和进行数据增强方面表现突出。这一方法特别适用于弥补基因表达矩阵中的缺失值,并能通过数据扩充提高模型的鲁棒性和泛化能力。 scGMAI[8]的优势在于其能够有效地模拟和修正单细胞数据,提高数据质量和完整性。对于存在技术噪音或稀疏性的单细胞RNA测序数据,scGMAI能够显著改善数据的准确性。 然而,该方法也存在一些挑战。首先,GANs的训练过程复杂且计算资源需求高,需要在生成器和判别器之间达到微妙的平衡。其次,生成对抗网络的稳定性问题可能导致生成数据的质量不稳定,这对实际应用提出了更高的要求。尽管如此,scGMAI在数据预处理和增强方面的应用前景依然十分广阔。 2.2 scGAC scGAC[9](Single-Cell Graph Attention Network)是一种基于图卷积网络(GCNs)的深度学习方法,专注于捕捉细胞间的关系网络。GCNs能够处理和分析具有复杂拓扑结构的图数据,通过卷积操作在图结构上进行特征提取。scGAC进一步引入了注意力机制,使得模型能够更有效地识别和关注关键的细胞间关系,从而提高了对细胞相互作用和信号传导路径的理解。在处理空间转录组数据时,scGAC展现了其独特的优势。空间转录组数据不仅包含基因表达信息,还包括细胞在组织中的空间位置信息。scGAC利用这些空间信息构建细胞间的关系网络,从而揭示细胞在组织中的空间分布和功能差异。这对于理解细胞的组织结构和功能具有重要意义。 然而,scGAC[9]的计算复杂度较高,对计算资源的需求较大,特别是在处理大规模图数据时。此外,图卷积网络的设计和超参数调优过程较为复杂,需要大量的实验和验证来确定最佳参数设置。尽管如此,scGAC在揭示细胞间复杂关系和空间组织结构方面具有巨大的潜力和应用前景。 2.3 scDeepCluster scDeepCluster[10]是一种基于深度自编码器(Deep Autoencoder)的聚类方法,它通过整合零膨胀负二项(Zero-Inflated Negative Binomial, ZINB)模型和自编码器技术,实现了非线性数据映射并学习数据的低维嵌入表示。该方法在自编码器部分引入随机高斯噪声,以增强数据的低维表示质量;而在解码器部分,构建了三个全连接层,分别用于估计数据的均值、离散度和缺失率,这三个参数共同定义了ZINB模型的损失函数。 此外,scDeepCluster[10]采用Kullback-Leibler (KL) 散度来度量输入数据与重构数据之间的分布差异,并据此定义了一个新的损失函数。这样的设计不仅有助于优化模型的参数,还能更精确地捕捉数据的内在结构。在模型的输出端,即低维空间,使用k-means算法进行数据聚类,进一步揭示数据中的潜在模式和结构。能够对高维单细胞RNA测序数据进行降维和聚类分析。深度自编码器通过多个非线性变换层,将高维数据压缩到低维表示,从而提取出数据的关键特征。scDeepCluster利用这一特点,在处理高噪声数据时表现出色,能够通过自编码器的降噪功能有效地去除数据中的技术噪音,从而提升聚类的准确性和稳定性。 scDeepCluster[10]的主要优势在于其自动特征提取能力,无需预先指定特征,自编码器能够自动学习并提取有用的特征。这使得scDeepCluster在处理高维且具有较多噪声的单细胞RNA测序数据时具有显著优势。该方法特别适用于需要高精度聚类分析的场景,如亚群细胞类型的鉴定和新型细胞群体的发现。 然而,scDeepCluster[10]的性能高度依赖于自编码器的结构设计和训练过程,训练时间较长,对计算资源的需求较大。此外,深度自编码器的黑箱特性使得解释其聚类结果变得困难,这在一定程度上限制了其在实际生物研究中的应用。 2.4 小结 scGMAI[8]、scGAC[9]和scDeepCluster[10]在处理单细胞RNA测序数据和空间转录组数据时各具特色。scGMAI在处理缺失数据和数据增强方面表现突出,适合于数据稀疏或存在技术噪音的场景;scGAC在捕捉细胞间关系网络和处理空间转录组数据方面具有优势,能够揭示细胞在组织中的空间分布和功能差异;而scDeepCluster则在高维数据的降噪和聚类分析中展现出强大的能力,适用于高噪声数据的高精度聚类分析。
第三章 不同深度学习模型在数据特征中的提取与比较 3.1 不同深度模型的方法在scRNA-seq数据集上的性能及其差异 3.1.1 数据 以下采用了11个单细胞RNA测序(scRNA-seq)数据集来评估基于深度模型的插补、可视化和聚类方法的性能。这些数据集的数据来源、细胞计数和聚类统计信息在表2中进行了总结。 表2-1 11个数据集基准汇总 数据集 细胞数 基因数 聚类数 标准化类型 细胞资源 含零率 Biase [11] 49 25737 3 FPKM 两个和四个细胞的小鼠胚胎 0.28 Yan [12] 90 20214 7 RPKM 人类着床前胚胎和胚胎干细胞 0.37 Goolam [13] 124 41480 5 UMI 四细胞小鼠胚胎 0.68 Deng [14] 268 22457 10 RPKM 小鼠着床前胚胎 0.32 Pollen [15] 301 23730 11 TPM 人类 0.51 Kolodziejczyk [16] 704 38653 3 UMI 小鼠胚胎干细胞 0.48 Treutlein [17] 80 23271 5 FPKM 人类肺上皮 0.51 Ting [18] 149 29018 7 RPM 人类胰腺循环肿瘤细胞 0.52 Usoskin [19] 622 25334 11 RPM 人类神经元 0.78 Klein [20] 2717 24175 4 UMI 人类胚胎干细胞 0.69 Zeisel [21] 3005 19972 9 UMI 小鼠皮质 0.46
Biase[11]的数据集包含了9个受精卵、10个2细胞期和5个4细胞期的小鼠胚胎,总共49个样本和25737个基因。基因表达值通过提取每千基因每百万片段(FPKM)并应用上四分位数归一化方法来标准化。 Yan[12]的数据集包括90个个体人类植入前胚胎的转录组,这些胚胎通过Hiseq2000进行测序。基因表达值通过应用RPKM方法进行归一化,使用了表达值大于0.1的20214个基因。 Goolam[13]的数据集[11]来自于28个胚胎在2细胞期、4细胞期和8细胞期的所有囊胚细胞,以及在16细胞期和32细胞期胚胎的12个单个细胞,总共124个样本和41480个基因。 Deng[14]的数据集包含了来自受精卵、晚期囊胚和成年肝脏的268个单个细胞。转录组通过使用RPKM方法来生成读数计数进行标准化。 Pollen[13]的数据集包含来自11个不同群体的301个单细胞的转录组,这些样本进行了低覆盖度和高覆盖度的测序。所有样本的基因表达值通过应用每百万转录本(TPM)进行归一化。 Kolodziejczyk[16]的数据集包含来自小鼠胚胎干细胞的250个血清细胞、295个2i细胞和159个a2i细胞,分别来源于三种不同的培养条件,总共704个个体细胞和38,653个基因。并且三种条件下的不同实验存在批次效应。 Treutlein[17]的数据集包含来自四个不同阶段的小鼠肺上皮细胞的80个单细胞转录组,共有23271个基因,基因表达水平通过FPKM方法量化。 Ting[18]的数据集包含来自5只小鼠血液中富含的75个单细胞循环肿瘤细胞,一个小鼠胚胎成纤维细胞系的12个单细胞,nb508小鼠胰腺癌细胞系的16个单细胞,12个单一小鼠白血细胞,以及来自4只小鼠的小鼠原发性胰腺肿瘤的10或100皮克克总RNA的34次稀释。此外,基因表达值通过读数每百万(RPM)进行归一化。 Klein[20]的数据集包括2717个转录组样本,这些样本来自小鼠胚胎干细胞(mES),具有24175个基因。数据集的基因表达值在匹配和定位后呈现每个细胞的唯一分子标识符(UMI)过滤计数,无需归一化。 Usoskin[19]数据集的转录组包含622个解离的单细胞,这些单细胞从小鼠腰椎背根神经节解剖,分布在总共9个96孔板上。以25 334个基因的每百万读长(RPM)值量化表达水平。 Zeisel[21]的数据集包括来自小鼠体感皮层和海马CA1的3005个单个细胞中19 972个基因的唯一分子标识符(UMI)计数。基因表达值小于1的转录本被视为未表达,并从所有数据集的进一步分析中删除。 3.1.2 数据处理 将少于10个细胞中表达的基因过滤,并对数据进行归一化或者进行Log转化: X=log2(X+1) 含零率计算代码:

Set the directory to the current directory

current_directory = os.getcwd()
process_all_files_in_directory(current_directory)
细胞数和基因数计算代码: import pandas as pd import os
def calculate_zero_rate_sparsity_and_dimensions(file_path): try: # 加载CSV文件 data = pd.read_csv(file_path)
def main(): # 获取当前目录下的所有文件 files = os.listdir('.')
 
 
3.1.3 插补方法在scRNA-seq数据集上的性能
由于定义数据集的真值具有挑战性,因此直接评估插补方法是很困难的。于是通过应用Splatter[22]模拟一个单细胞RNA测序(scRNA-seq)数据集,以直接评估深度模型基的去噪和插补算法的性能。模拟的scRNA-seq数据集包含2000个细胞和2000个基因,分为6组。分别应用了三种数据恢复方法(scGMAI[8]、scGAC[9]、scDeepCluster[10])对具有dropout的计数进行插补。通过计算插补计数与真实计数之间的皮尔森相关系数(PCC)和根均方误差(RMSE),可以观察到,scGAC在PCC和RMSE上均显著优于其他方法。scDeepCluster在PCC上具有竞争力,但以较大的RMSE为代价。相反,scGMAI在RMSE上表现良好,但在PCC上相对较差。这表明scGAC具有出色的去噪和插补性能,而其他方法要么忽略了基因之间的相关性,要么在数据集中引入了插补偏差。
notion image
图2-1 三种模型在不同基因间相关性和相同同的样本量下,插补性能上的表现折线图
在下游分析(如聚类)改善方面,scGAC[9]和scGMAI[8]在几乎所有数据集上表现出色,特别是在和Zeisel[21]的数据集上能显著改善聚类结果。scGAC在所有数据集上表现最稳定,而scGMAI则在Treutlein[17]和Zeisel的数据集上表现出色,证明了其在某些数据集上的优秀插补和降噪性能,以及在所有数据集上的不稳定性。但实际上,没有一种方法能保证其插补过程一定会改善聚类性能,每种插补方法对数据集的偏好不同。
3.1.4 聚类方法在scRNA-seq数据集上的评价性能
下面将对比四种基于深度学习的聚类算法在单细胞RNA测序(scRNA-seq)数据集上的聚类效果,这些算法都专注于聚类分析并通过Python实现。评估其聚类性能时,分别在上文描述的11个数据集上执行了这些方法,采用了方法提供的默认参数以及所有四种方法相同的批量大小。
对于scGNN[23],使用默认的Louvain聚类方法。同样,采用调整兰德指数(ARI)、归一化互信息(NMI)[24]和轮廓系数来评价这些方法的聚类结果。进一步,为了与传统聚类算法进行比较,直接在本文应用的11个scRNA-seKolodziejczyk数据集上执行了Louvain聚类算法和FEATS(一个用于批处理校正和下游分析的多功能工具),并评估了它们的聚类效果。就ARI和NMI指标而言,scSemiCluster[25]在几乎所有数据集上几乎都表现出优势,尤其是在细胞数较多的三个数据集(等、YanKlein等和Zeisel[19]等)上,分别达到了0.979、0.908和0.75的ARI以及0.965、0.88和0.728的NMI,这表明scSemiCluster分配的簇标签与细胞的真实情况非常匹配。
与传统聚类算法Louvain相比,scDeepCluster[10]也表现出色,在几个数据集上有显著改善,如Goolam[13]、Deng[14]、Pollen[15]和Zeisel[21]等。而scGNN[23]在几乎所有数据集上就ARI、NMI和轮廓系数而言表现最为稳定,Treutlein[17]数据集除外。就轮廓系数而言,scGNN优于scDeepCluster、scSemiCluster、DESC[26]和Louvain[27],这意味着它分配的簇之间分离更大,簇内细胞的紧密度更好。DESC在ARI和NMI指标上也表现出了极好的稳定性。传统聚类工具Louvain和FEATS在几个scRNA-seq数据集上也表现良好,如Biase[11]、Yan[12]、Pollen[15]和Klein[20]等。
此外,通过评估不同细胞数的数据集上的运行时间,可以对三种基于深度模型的聚类方法以及两种传统聚类算法的可扩展性进行评估。结果显示,基于深度模型的聚类方法由于其复杂的结构和深层次,比经典聚类算法Louvain更耗时。其中,DESC展示了出色且线性的可扩展性,当细胞数增加到3000时仅需要36秒,而其他方法则需要数百秒。同时,当细胞数少于1000时,scDeepCluster[10]和scSemiCluster[25]的运行时间为几十秒。总体而言,FEATS在Usoskin[19]数据集上超过了其他聚类方法。
notion image
图2-2 scSemiCluster基于数据集得出的评价模型
然而,当细胞数超过1000时,它们的运行时间大幅增加。即使细胞数为50,scGNN[23]也需要数百秒,这是由于其修剪细胞图过程和图自编码器结构。随着细胞数的增加,其运行时间缓慢增长,这表明scGNN对于细胞数较多的数据集也具有良好的可扩展性。另一个传统聚类工具FEATS的运行时间随着数据集中细胞数的增加呈指数增长,这表明FEATS的可扩展性相对较差,特别是在处理细胞数较多的数据集时。总的来说,对于对聚类性能有高要求的用户,scSemiCluster[25]和scDeepCluster[10]更为合适,而考虑聚类算法稳定性的用户适合选择scGNN。而当用户同时需要良好的性能和较短的运行时间时,可以选择DESC。
3.2.1 图卷积神经网络(GCN)-scGAC的优缺点
图卷积神经网络(GCN)[28]在单细胞RNA测序数据和空间转录组数据上的应用效果表现出色。特别是在处理单细胞RNA测序数据方面,GCN的应用已经取得了显著的进展。
scGAC[9]是一个基于GCN[28]的工具,专门用于单细胞RNA测序数据的插值和聚类。它通过简化闭环架构实现了比传统GCN更快的执行速度,并且在所有数据集上,细胞聚类性能平均提高了85.02%(以调整后的Rand指数为衡量标准),插值的中位数L1误差平均降低了67.94%。这表明GCN在处理单细胞RNA测序数据时具有高效和准确的特点。
此外,scGAC[9]方法通过结合多层感知器和图神经网络(包括注意力网络),在基因插值和细胞聚类任务中展现了优越的性能。该研究使用了余弦相似度、中位数L1距离和均方根误差等指标来评估基因插值性能,并利用调整后的互信息、归一化互信息和完整性得分等标准来评估不同方法在细胞聚类方面的效果。实验结果表明,scGAC在细胞聚类和基因插值调查中的表现优于当前的单细胞数据处理技术。
scGAC[9]通过简化闭环架构,实现了比传统GCN[28]更快的执行速度,在多个数据集上展现了出色的细胞聚类和基因插值性能,显著提高了聚类准确性并降低了插值误差,同时展示了优越的去噪和插值能力,能有效捕捉细胞之间的复杂关系和相互作用。相比scGMAI和 scDeepCluster在捕捉细胞关系和处理空间转录组数据方面具有明显优势。
表2-2 scGAC、scDeepCluster和scGMAI基于深度模型的聚类方法得出数据集-ACC
scGAC
scGMAI
scDeepCluster
Pollen
/
0.5783
0.7394
Usoskin
0.6077
0.5611
0.8608
Goolam
0.8226
0.6532
0.8401
Treutlin
0.875
0.6375
1.0172
Ting
0.7544
0.7719
1.0543
Deng
0.7778
0.5481
0.6285
yan2013
0.7778
0.8
0.7748
biase
1
/
0.8077
Zeisel
0.8539
0.4769
0.7394
Kolodziejczyk
0.5385
0.5879
0.8608
Usoskin
/
0.5455
0.8401
Klein
0.8145
0.6129
1.0172
表2-3 scGAC、scDeepCluster和scGMAI基于深度模型的聚类方法得出数据集-ARI
scGAC
scGMAI
scDeepCluster
Pollen
/
0.4809
0.7604
Usoskin
0.4121
0.3124
0.4940
Goolam
0.9141
0.5635
0.8911
Treutlin
0.8667
0.5435
0.8594
Ting
0.7493
0.7146
1.1300
Deng
0.5873
0.3661
0.5789
yan2013
0.8339
0.7956
1.2581
biase
1
/
0.5378
Zeisel
0.8218
0.3401
0.4701
Kolodziejczyk
0.2496
0.2973
0.7600
Usoskin
/
0.4806
0.8893
Klein
0.7924
0.5624
0.7604
表2-4 scGAC、scDeepCluster和scGMAI基于深度模型的聚类方法得出数据集-NMI
scGAC
scGMAI
scDeepCluster
Pollen
/
0.7027
0.9150
Usoskin
0.5125
0.4183
0.5447
Goolam
0.9065
0.7444
0.9693
Treutlin
0.8275
0.5745
0.7480
Ting
0.8666
0.7886
1.0268
Deng
0.7748
0.6107
0.7952
yan2013
0.8622
0.8451
1.1004
biase
1
/
0.5750
Zeisel
0.7524
0.4416
0.5526
Kolodziejczyk
0.4247
0.4244
0.9823
Usoskin
/
0.7544
1.0014
Klein
0.8300
0.7691
0.9150
表2-5 scGAC、scDeepCluster和scGMAI基于深度模型的聚类方法得出数据集-Time
scGAC
ScGMAI
scDeepCluster
Pollen
/
269.34
594.75
Usoskin
100.54
444.84
982.28
Goolam
21.96
259.08
572.09
Treutlin
19.29
20.21
44.63
Ting
20.83
176.25
389.19
Deng
19.28
159.37
351.92
yan2013
18.18
179.99
397.45
biase
/
/
1834.63
Zeisel
2860.05
830.84
306.52
Kolodziejczyk
/
138.8100
85.46
Usoskin
/
38.7000
146.53
Klein
19.9600
66.3600
594.75
 
3.2.2 scGMAI的优缺点
scGMAI[8]集成了自编码网络,有效地处理了scRNA-Seq数据中常见的Dropout事件,即许多基因表达未被检测并记录为零。通过学习和重建数据,自编码器改善了基因表达矩阵,减少了Dropout事件对分析的影响。此外,scGMAI采用FastICA[29]进行降维,该方法在识别和突出数据的独立特征方面表现出色,使得scGMAI能够捕捉到scRNA-Seq数据的关键特征,提供了比PCA、t-SNE、UMAP和ZIFA等其他方法更好的聚类精确度。
使用高斯混合模型进行聚类使scGMAI[8]能够有效地对细胞进行聚类并识别细胞类型,基于提取的特征和降维数据。该模型自动估算聚类数量,为识别异质样本中的细胞群体提供了一个稳健的框架。通过使用t-SNE进行聚类结果的可视化,可以直观地分析细胞分布特征,帮助理解复杂scRNA-Seq数据中不同细胞类型之间的空间关系和分布。最后,scGMAI在scRNA-Seq数据集上进行的测试,并在多个评估指标(例如NMI、ARI)上显示出优于其他聚类方法的性能,表明scGMAI在不同数据集和条件下具有良好的鲁棒性。
但是包括自编码器、FastICA和高斯混合模型在内的多步骤过程可能计算密集,特别是在非常大的数据集上。对显著的计算资源的需求可能在某些环境中限制了scGMAI的使用。尽管使用K-means++初始化高斯混合模型有助于优化聚类过程[30],但算法使用的整体性能仍可能对初始条件敏感,这可能影响某些情况下聚类结果的可重现性和稳定性。
虽然自编码器有效地处理了Dropout事件,但该模型对不同类型的Dropout(随机与系统性)的具体应对策略并未详细说明。如果Dropout的特性在数据集之间有显著变化,这可能影响性能。此外,FastICA和高斯混合模型的效果在很大程度上依赖于参数选择,如FastICA中的组件数量和高斯模型的初始条件。参数设置不当可能导致次优的聚类结果。
scGAC[9]的高效执行和准确性使其在细胞聚类和基因插补任务中表现优越,但也面临计算复杂度高和依赖数据质量的问题。所以scGAC在处理细胞关系和空间转录组数据方面具有显著优势。
3.2.3 scDeepCluster优缺点
scDeepCluster[10]在模拟数据集上对不同dropout率和聚类信号强度的处理显示了其优越性。在dropout率为30%时,其NMI值接近1,显示出极佳的聚类性能,并且即使在dropout率增至30%时,性能仍然保持在NMI约0.9的较高水平,远超其他方法。此外,在处理真实的scRNA-seq数据集时,scDeepCluster同样展示出了较高的NMI、准确率(CA)和调整兰德指数(ARI),证明了其在实际应用中的有效性和准确性。
scDeepCluster[10]在多个测试数据集上展示出优异的聚类性能。在不同的dropout率和聚类信号强度下的模拟评估中,scDeepCluster的表现一致超过了其他方法(如DCA+k-means, MPSSC, SIMLR, CIDR, PCA+k-means, scvis+k-means, DEC)。特别是在高dropout率的情况下,其表现的稳定性和优越性尤为显著,这证明了该方法对于dropout事件的有效处理能力。
而且scDeepCluster[10]能够处理包含空间位置信息的数据,且能够适应不同生物学条件下的数据[31],包括不同的细胞类型和状态,该方法可能利用深度学习技术来处理高维度、高稀疏性和高噪声的scRNA-seq数据,这有助于提取更具代表性的特征,从而提高聚类的质量。
Loading...