算法：单细胞转录组测序联合bulk转录组测序,单细胞转录组之Scanpy - 轨迹推断/拟时序分析

2024-12-28 足球阅读 6

算法：单细胞转录组测序联合bulk转录组测序

整合单细胞转录组与bulk数据的算法

单细胞转录组测序与bulk转录组测序的整合是癌症研究的热点，主要目标是挖掘癌症发生发展机制。本文介绍了两种关键方法：BayesPrism和Scissor。

1. BayesPrism算法

BayesPrism以scRNA-seq为先验信息，利用反卷积技术从bulk数据中推测细胞类型组成和基因表达。在GBM、HNSCC和SKCM肿瘤中展现了优越的性能，尤其在估计恶性细胞比例和基因表达上。研究显示，BayesPrism在预测基因表达时的准确性超过CIBERSORTx，为理解恶性细胞在肿瘤微环境中的影响和基因程序提供了有力工具。

2. Scissor算法

Scissor算法创新性地利用bulk数据的表型信息，从单细胞中识别特定细胞亚群。在肺癌和黑素瘤研究中，发现了与生存、TP53突变及免疫治疗反应相关的细胞亚群，揭示了疾病机制及预后预测的新线索。

跟NBT学Scissor | bulk RNA + scRNA鉴定与目标表型相关的细胞亚群

Nature Biotechnology发表的文章“Identifying phenotype-associated subpopulations by integrating bulk and single-cell sequencing data”中，团队开发了Scissor算法，能够利用单细胞数据和表型信息识别与疾病高度相关的细胞亚群。本文将介绍Scissor算法的工作流程和实现方法。

Scissor算法工作流程如下：首先利用单细胞表达数据、bulk表达矩阵和表型信息，算法自动识别出与给定表型高度相关的细胞亚群。该过程直观地从单细胞数据中识别特定细胞群。

在TCGA-LUAD数据集的测试中，Scissor算法表现良好。结果显示，通过计算得出361个Scissor+细胞和534个Scissor-细胞，大部分Scissor+细胞被鉴定为肿瘤细胞，仅少数为T细胞和B细胞。在这些细胞中，98.1%被确认为肿瘤细胞，表明Scissor能够有效区分肿瘤细胞与正常细胞，并准确识别与目标表型相关的细胞。

本文接下来将介绍如何在R语言中实现Scissor算法。首先需下载Scissor包及示例数据并检查数据集的基本情况。在准备seurat数据集时，应包含预处理数据和网络构建数据。同时检查bulk seq数据和表型数据，确保表型文件的第一列为示例ID，顺序需与bulk表达矩阵中的列名一致，第二列为二元变量，即'1'表示事件（如癌症复发或死亡），'0'表示右截尾。

在运行Scissor时，根据数据类型（如生存数据或logistic回归）选择合适的family参数。Scissor输出相关系数的五分位数摘要，相关系数均为正，且值不接近零。若相关性低于0.01，Scissor会给出警告，表示表型-细胞关联的结果可能不可靠。

Scissor结果通过umap可视化，发现clusters 1和3与预后差表型最相关。此外，还可进行差异分析和富集分析等后续分析。在优化模型参数时，可以设置alpha参数为NULL或梯度，以进一步调整算法表现。有关更多参数和模型细节，请参阅相关网站。

相关参考文献包括文章原文及R语言生信分析、可视化（R统计、ggplot2绘图、生信图形可视化汇总）的资源。若有交流讨论需求，请关注“生信补给站”公众号并回复“入群”。

scRNA-seq之单细胞亚群识别

随着高通量RNA测序技术的发展，科学家们在单细胞生物学领域取得了突破性进展。单细胞转录组测序技术自2009年首次开发以来，已成为研究的热门话题。与传统方法相比，其能够同时处理成千上万个细胞并获取每个细胞的独特性，推进了基因组学的发展。

单细胞RNA-seq分析流程会不断更新，数据过滤是分析的第一步，以确保数据质量。随后进行数据质量评估，以确保测序结果可靠。高变基因筛选有助于发现可能发生功能变化的基因，为后续研究提供重要线索。特定基因表达水平的绘制帮助理解基因在不同细胞中的活动状态，而分类和聚类热图则可视化不同细胞亚群的表达模式。这些步骤使科学家能够深入探索细胞的微妙变化，揭示细胞间的差异，及其在不同生理和病理状态下的行为。

单细胞RNA-seq的革新不仅改变了我们对细胞的理解，也为疾病研究及生物医学等领域带来了新的机遇。随着技术和算法的不断进步，单细胞分析的潜力将被进一步挖掘，为科学研究和临床应用提供更精准、更深入的见解。

细胞注释之marker列表

近期专注于经典marker的整理与总结，更新较少。经过测试，搜集的marker配合clustermole的自动化分析，在定义细胞类型上表现良好。在单细胞分析中，理解每个cluster的细胞类型是关键，通常需通过细胞注释实现，分为自动注释、手动注释和验证三个步骤。

自动注释是快速工具，通过算法识别特征基因表达，为细胞分配标签，包括marker-based annotation（基于marker基因注释）和reference-based annotation（基于参考数据集注释）。然而，自动注释的准确性有时受限，需要人工干预以检查和补充有误的注释。

手动注释是黄金标准，但耗时且主观。通常需了解样本中主要细胞类型，并利用Marker Gene list（如CellMarker, HCA, PanglaoDB等）辅助，通过基因表达可视化确定细胞类型。另外，需注意doublet可能带来的影响。

验证是确保注释可靠性的关键步骤，特别针对新或稀有细胞类型。多组学实验如TCR和B细胞受体克隆分型可进一步细化细胞类型标签。

分享的单细胞空间文献中包含多种marker列表，包括人和小鼠的细胞亚类marker，由于整理耗时较长，建议大家根据需求自行斟酌。细胞注释虽然具有挑战性，但通过不断积累和实践，逐步完善这一过程。

算法：单细胞转录组测序联合bulk转录组测序,单细胞转录组之Scanpy - 轨迹推断/拟时序分析

单细胞及空间多组学数据分析——深挖生物学内涵，助力精准医学 | 时空简讯38期

时空简讯第38期聚焦单细胞及空间多组学数据分析领域。生物医学正见证单细胞及空间多组学（特别是空间转录组）技术的迅速发展，带来海量生物信息数据。为有效处理和利用这些数据，华大时空推出数据分析方法专题简讯，精选代表性文章，涵盖差异基因筛选、细胞类型识别、互作网络分析及临床预测工具，旨在快速传播相关数据分析方法。

计算方法的创新持续推动单细胞及空间多组学的实际应用，我们精心挑选了10篇前沿文章，总览当前在细胞类型识别、差异基因筛选、互作网络分析和数据库构建等方面的进展。这些文章揭示了计算手段在将单细胞与空间多组学推向实际应用中的关键作用。

综述文章《空间转录组数据细胞组成推断方法的综合比较》深入探讨了10种反卷积分析方法的原理、特性和性能评估，明确了各种方法的适用性与优缺点。

《空间转录组数据分析方法的最新进展》总结了该领域的最新进展，包括细胞类型识别、转录组谱的空间模式表征、亚细胞结构分析及细胞与组织环境的通信研究，提供了综合管理工具和管道概览。

《基于共变邻域鉴定表型相关亚群的单细胞转录组分析方法》提出了一种无监督的表型共变细胞群鉴定方法CNA，通过量化邻域粒度分析，克服粒度模糊问题，并提供统计学模型，提升了细胞群体鉴定的准确性和效率。

《CellDART：通过域自适应推断空间转录组数据的细胞类型》介绍了一种改进的对抗判别算法CellDART，能在空间转录组数据中推断细胞类型，显著提高性能并适应不同平台的数据分析。

《trendsceek：识别带有空间信息的高可变基因》提出了一种基于标记点的trendsceek方法，用于识别空间组和单细胞数据中的高可变基因，揭示了空间模式与表达梯度。

《MERINGUE：在不均匀细胞密度的空间分辨单细胞转录组数据中描述基因表达的异质性》开发了计算框架MERINGUE，能独立于细胞密度识别空间基因表达的异质性，适用于多种数据集。

算法：单细胞转录组测序联合bulk转录组测序,单细胞转录组之Scanpy - 轨迹推断/拟时序分析

《MISTy：空间转录组细胞互作分析方法》提出了灵活可扩展的框架MISTy，基于空间组学数据提取细胞互作关系，无需单元格类型注释，能生成新假设并与临床特征关联。

《GCNG：从空间转录组数据推断基因相互作用的图卷积网络方法》介绍了一种基于图卷积神经网络的GCNG方法，用于预测细胞外基因的相互作用，利用图结构的关系提高预测性能。

《RNALocate v2.0：RNA亚细胞定位数据资源分析平台》更新了RNALocate资源平台，包含213,216个RNA亚细胞定位条目，增加了数据源和物种覆盖范围，提供额外的预测工具。

《SpatialDB：空间解析转录组数据库》构建了首个手动管理的SpatialDB数据库，包含多种空间转录组数据集，支持空间基因表达谱的可视化与比较。

这些文章共同展示了单细胞及空间多组学数据分析领域的最新进展，为生物医学研究提供强大工具和资源库。关注这些文章将有助于深入理解并利用单细胞及空间多组学技术在疾病机制和精准医学中的应用潜力。

单细胞转录组之Scanpy - 轨迹推断/拟时序分析

什么是拟时序分析？拟时序分析（pseudotime analysis）又称细胞轨迹分析，它推断了细胞的发育过程和分化轨迹。

在分析中，我们可以理解为细胞包含不同发育状态的细胞，某些细胞处于早期，某些处于晚期或未分化状态。算法会基于基因表达推断每个细胞的相对分化时间，以确定分化轨迹。

常用的进行拟时序分析的包是monocle，然而monocle对内存的消耗较大，容易出现内存不足的问题。而scanpy在这方面更具优势，因为它内嵌了轨迹推断函数，可以无缝连接之前的单细胞分析。

在此，我们使用pbmc3k数据进行测试，切记pbmc数据集是基本分化完全的细胞，仅作为测试使用。

单细胞转录数据分析之Scanpy：

单细胞转录组之Scanpy - 轨迹推断/拟时序分析
单细胞转录组之Scanpy - 样本整合分析
单细胞空间转录分析之Scanpy
单细胞空间转录分析之Scanpy - 结合单细胞转录组

首次，导入相关包，然后读取数据（使用前面跑完scanpy流程输出的pbmc3k.h5ad），接着进行数据预处理、计算距离和可视化。

在这一过程中，作者进行了图形优化与去噪。

算法：单细胞转录组测序联合bulk转录组测序,单细胞转录组之Scanpy - 轨迹推断/拟时序分析

此外，使用Clustering and PAGA方法，PAGA（Partition-based Graph Abstraction）是一种基于空间划分的抽提细胞分化“骨架”的算法，有助于显示细胞的分化轨迹和评估cluster之间的关系。

使用sc.tl.louvain对细胞进行聚类，同时根据已知marker基因识别细胞类别，并为细胞类型信息注释上去。

经过颜色处理，替换颜色，并定义分化起点，计算每个细胞的拟时间，最后绘制拟时间分布（建议根据实际数据选取分化起点）。

根据给定的基因组，沿PAGA路径重建基因变化。

细胞类型识别算法细胞注释之marker列表

文章评论

取消回复

算法：单细胞转录组测序联合bulk转录组测序,单细胞转录组之Scanpy - 轨迹推断/拟时序分析