Nature Biotechnology | 单细胞转录组不同建库及数据分析方法的测评结果
单细胞转录组技术实现对单个细胞进行详细的转录组分析,其在解析细胞异质性和鉴定新型细胞亚群层面具有独特的优势。目前,该技术已广泛应用于生物医学领域,比如解析肿瘤微环境细胞组成、哺乳动物胚胎发育等。
随着测序技术的飞速发展,单细胞转录组测序技术也已成为实验室常规工具之一。然而,研究人员在试图应用单细胞转录组技术的时候也面临着令人困惑的选择,比如说选择哪种建库测序平台,使用哪种分析方法以及后续的生物信息学分析方法的选择等等。
此前,来自人类细胞图谱联盟的研究人员进行了一项综合性多中心研究,通过使用包含人类、小鼠和狗细胞的参考样本,比较了13种单细胞转录组测序流程的异同。结果发现不同流程在量化基因表达和识别细胞类型层面存在着显著差异。
近日,美国罗马琳达大学基因组学中心的研究团队在Nature Biotechnology发表了题为“A multicenter study benchmarking single-cell RNA sequencing technologies using reference samples”的研究性文章,研究人员设计了一项综合性的多中心研究,用以评估技术平台、样品组成和生物信息学方法(包括预处理、归一化和批次效应校正)的影响,并在最后为科研人员解决科学问题的技术平台和生物信息方法的结合提供了实践指导。
该研究使用了四种测序平台:10x Genomics,Fluidigm C1, Fluidigm C1 HT和Takara Bio ICELL8;测序工作分别由四个研究中心完成:Loma Linda University(LLU), the National Cancer Institute(NCI), the US Food and Drug Administration(FDA)和Takara BioUSA(TBU)。样本层面,他们使用了有两个特征明显的参考细胞系:来自同一供者的乳腺癌细胞系(样本A)和“正常”B淋巴细胞系(样本B)。然后使用3 '或全长单细胞转录组测序方法对30,693个单细胞进行了测序,共生成了20个数据集。
针对产生的这20个数据集,研究人员对不同的数据预处理方法、数据标准化方法、批次效应矫正方法等进行了评估。
图1. 研究总体设计示意图。来源:Nature Biotechnology
测序深度与检测基因数的关系
首先,研究人员对序列深度与检测到的基因数量的关系进行了评估。正如预期的那样,随着测序深度的增加,检测到的基因数逐渐升高并最终趋于稳定。另外,对于癌细胞(样本A)和B淋巴细胞(样本B),随着测序深度的增加,每个细胞检测到的基因数量迅速增加,特别是Fluidigm C1平台。然而,对于全长测序技术(C1_LLU和ICELL8),在10万次读取后,饱和速率较慢,在相同的测序深度增加情况下,与基于3’的测序技术相比,额外能够检测到的基因较少。
图2. 不同测序平台检测的基因数及与测序深度的关系。来源:Nature Biotechnology
数据预处理方法的比较
对基于UMI(Unique Molecular Identifier)的单细胞转录组测序数据,他们比较了三种预处理方法:Cell Ranger 3.1(10x Genomics)、UMI-tools和zUMIs。结果显示,三种方法在识别细胞数量和每个细胞检测到的基因数量层面都存在差异。不过,Cell Ranger V3是最灵敏的细胞条形码识别方法,UMI-tools和zUMIs可以过滤大多数低基因或转录表达的细胞,但每个细胞内可检测到更多的基因。
对非基于UMI的单细胞转录组测序数据,他们比较了另外三种预处理方法:featureCounts、kallisto和RSEM。这些数据预处理流程包括去除低质量测序数据、基因组比对和基因计数。结果表明,三个不同的预处理方法检测到的基因数量的差异比较大。kallisto在全长转录组测序数据中发现了每个细胞中更多的基因。此外,基于Fluidigm C1 HT 3’测序方法产生的数据中,kallisto方法检测到的每个细胞的基因数与其它两个管道生成的基因序列有显著差异。
图3. 数据预处理方式对检测到的基因数量的影响。来源:Nature Biotechnology
不同批次矫正算法的比较
如上所述,数据集之间的差异可能来自技术层面或生物因素,针对这些技术层面带来的差异,在进行数据分析时是需要矫正的,否则将会影响最终的结论。研究者对七种校正批次效应的算法进行基准测试:Seurat version 3、fastMNN、mutual nearest neighbors(MNN)、Scanorama、BBKNN、Harmony、limma和ComBat。
他们通过四种不同的样本组合评估这些算法的性能,组合1包含所有单细胞转录组数据集,包括混合和纯合数据集;组合2只包含了乳腺癌细胞系数据;组合3分别对B细胞系来源数据进行评估;组合4中,数据由将5%或10%的乳腺癌细胞(样本A)加入到B淋巴细胞(样本B)中,用10x Genomics平台横跨两个中心测序得到。
结果显示,在去除批次效应和从B淋巴细胞中分离乳腺癌细胞方面,BBKNN、fastMNN和Harmony是最有效的;Seurat V3是将不同批次的相似细胞聚集在一起的最佳方法之一,特别是对乳腺癌细胞,但也会存在过度校正的现象,比如将两种高度不同的细胞类型融合在一起。另外,当只分析来自10x平台的数据时,Scanorama既能清晰地分离不同的细胞,又能很好地将相似的细胞组合在一起。
图4. 比较分析不同工具的批次矫正效果。来源:Nature Biotechnology
综合上述的分析结果,研究人员对这些预处理方法和算法进行了综合排序,如图5所示,基于UMI的数据可以用文中所列的任何方法进行预处理,而kallisto则更适用于全长转录组测序数据的预处理。
在跨中心数据集,特别是当数据集中存在大量不相似细胞时,BBKNN表现最好,而limma和ComBat在两种类型的细胞的跨平台、跨中心分离中表现最差。Seurat V3、fastMNN和Harmony都能很好地混合来自不同平台和位点的生物相同或相似样本的单细胞转录组数据。
图5. 生物信息学指标的性能排名。来源:Nature Biotechnology
综上所述,该研究比较分析了6种单细胞转录组数据预处理流程、8种归一化方法和7种批次校正算法,结果表明,单细胞转录组数据之间的确存在批次效应,不过,跨中心和不同平台的数据差异可以通过适当的计算方法进行纠正。同时,该研究也强调了选择适合的测序技术平台和分析数据算法的重要性。如下图所示,他们也根据本研究结果为科研人员选择最适合解决科学问题的技术平台和生物信息方法的结合提供了实践指导。
图6. 最佳分析推荐方案。来源:Nature Biotechnology
往期精品(点击图片直达文字对应教程)
后台回复“生信宝典福利第一波”或点击阅读原文获取教程合集
(请备注姓名-学校/企业-职务等)