图形解读系列 | 散点图也不简单

共 4694字,需浏览 10分钟

 ·

2020-07-01 23:21

识图:先理解每个点是什么(点代表基因、样品、通路或其它的,这个认识可以来自于常识,来自于自己对数据的认识,或来自于文章作者的描述),然后看横轴代表什么纵轴代表什么,再看图例中展示的其他信息如颜色、大小和形状分别代表什么。这些都理顺了,图理解就不难了。

cf63c1c63a9078781a6f6b2ef65900e2.webp

来源:https://www.r-graph-gallery.com/272-basic-scatterplot-with-ggplot2.html

这是个一般的散点图,展示的是X轴变量Sepal.Length和Y轴变量Sepal.Width,展示的是花萼的长度和宽度的关系。

散点图研究的是两个数值型变量之间的关系,凡是想展示分布状态的都可以使用散点图。它在生物信息分析中有应用广泛,且基于多样的“面貌”,散点图的具体使用形式是根据所需要展现的“故事”来绘制。常见的有:

  • 差异基因火山图Volcano plot | 别再问我这为什么是火山图):

    在一般散点图的基础上,根据P value/Q valuelog(FC)值给点着色,用以标注需要关注的显著差异点。

  • 功能富集分析泡泡图R语言 -富集分析泡泡图):

    一般X轴是对应通路差异基因占通路总基因的比例-Gene ratio(常用的是Odds Ratio),Y轴是富集的通路-Terms/Pathways,颜色变化表述富集显著性程度-Q value,点大小值表示为对应通路差异基因数目-conut(这些对应关系可能会根据需求调整)。

  • 相关性分析散点图

    在一般散点图的基础上添加数据趋势线。

  • 抖动图jitter plot):

    一个轴为离散变量,一个轴为数值型变量时,为了避免点之间因数值相同而覆盖,故在离散轴做一些便宜,不改变数值轴,一般结合箱线图展示。

  • 曼哈顿图

    曼哈顿图是基因组学中使用的一种特殊类型的散点图。

    X轴显示基因组上的基因变异体的位置。

    不同的颜色表示不同的样本。

    Y轴显示的是与表型性状的关联检验的p值。

    当然也可以用来展示差异基因或差异OTU,如下面的例子。

  • PCA样品分类图一文看懂PCA主成分分析

具体使用

基因表达散点图

90512bda052239d983fb54be2298ec73.webp

>

  • 原文描述:

    Dot plot visualization of each cell type in lung single-cell data. The size of the dot encodes the percentage of cells within a cell type, and the color encodes the average expression level

  • 来源文章链接:

    https://www.cell.com/cell/pdf/S0092-8674(18)30116-8.pdf

Dot plot是单细胞中常用来展示不同细胞簇中代表性基因表达的一个图。

这个散点图来源于一篇cell文章-Mapping the Mouse Cell Atlas by Microwell-Seq。作者分析成年鼠肺组织单细胞数据聚类得到了32个细胞簇(Y轴)。这个散点图的每一列是一个基因,每一行是一个细胞簇,不同颜色表示基因在对应细胞簇的平均表达量。而且相比于热图来讲,这个散点图中点的大小表示对应细胞簇中表达有对应基因的细胞所占的比例,这为结果解读提供了另一维度的信息。

肿瘤大小散点图

3225de762546f8d9708fd633a0252faa.webp

>

  • 原文描述:

    Tumour volume for individual animals(dots) on the day of euthanasia in the conditions indicated. Data are mean±s.d.

  • 来源文章链接:

    https://www.nature.com/articles/nature23270

在上图中,Y轴是肿瘤体积大小,X轴有样本基因型分组信息(TCRαWT)和样本接受的处理信息(GVAXanti-PD1有无),每个点都是一个样本。*表示组与组之间Student’s t-tests的P值(** P<0.01; *** P<0.001; **** P<0.0001)。其展示优势是体现出检测的样本量。

当检测样本数且样本点趋势一致的时候,可以排布出悦人的性状和展示更高的可信度。此图在简单的散点图还添加了箱线图中的上四分位数、中位数和下四分位数,用以从统计角度地展示肿瘤大小分布情况(可视化之为什么要使用箱线图?)。

自对照样品或样品两两相比散点图展示

9ef795b7f951a382cc20c8e0a6cfa30a.webp

>

  • 原文描述:

    Scatterplot of log2FC of genes from Reactome G1 pathway in each Library 1 screen. Each pairwise comparison is indicated by color. Pearson’s productmoment correlation coefficient is indicated (r).

  • 来源文章链接:

    https://pubmed.ncbi.nlm.nih.gov/29576454/

这个图展示某个通路上的基因在不同样本表达的相对高低和样品内表达的一致性。纵坐标和横坐标都是样本间差异基因比较得到的log(FC)值。这在整合多套数据时可以根据趋势的共性信息互相印证。

Jitter-plot展示差异基因分布

beec46af77b0088ae8dae58df6fa682e.webp

>

  • 原文描述:

    Log2 fold relative RNA probe distribution showing differential gene expression from bone marrow-derived macrophages (BMDMs) treated in vitro with mock or Aza+ ITF-2357. Angiogenic pathwayassociated genes are highlighted (microarray, BMDM data representative of n = 3 mice)

  • 来源文章链接:

    https://www.sciencedirect.com/science/article/pii/S0092867417312448

上图的抖动图jitter plot有着尽量多的二维信息,每个点是一个基因,类似于火山图的一维展示形式,横坐标是log2(FC),这意味着越往两侧的点,log2(FC)也就越小或者越大,即基因变化倍数越大,同时也可以用颜色标注出几个比较关注的基因,避免直接在图上标记名字而出现标签重叠的现象。

样本突变数目分布

dee6a664ddaa1958f140448f476280d7.webp

>

  • 图片描述:

    Two panels show mutation load for each sample in the dataset for SNVs。

    Each dot of the sorted scatterplots shows the total number of mutations pre- and post-filtering per sample. Total mutation counts are separated by total number SNVs per samples. Lighter colors indicate pre-filtered mutations from the controlled-access MAF, and deeper colors indicate post-filtered (PASS only) mutations from the open-access MAF. Cancers are ordered by the median number of post-filtered SNVs per tissue. Furthermore, samples are sorted by increasing number of total mutation count for SNV plot.Samples removed during post-filtering are also shown, i.e., LAML and OV in lighter colors without an accompanying pair and are sorted accordingly. The total number of samples for each cancer type is displayed under each cancer label. Finally, the y axis limits were placed from 0 to 50,000 for clarity. This resulted in the removal of 14 hypermutator samples from SNV plot.

  • 来源文章链接:https://www.sciencedirect.com/science/article/pii/S2405471218300966

  • 这是另一种散点图,是用来展示样本过滤前后的突变数目。

  • 每种癌症所有样品按过滤后的突变数(深蓝点)的中位数排序,浅蓝点表示未过滤的突变数。

  • 图形的亮点再与排序,排序后点就不再是一堆散乱的点,而是一条有序的线,结果展示更清晰

曼哈顿图

b4d6c2b18b8bc593e6d0ee98783ff7b1.webp

曼哈顿图在用于差异基因时表达的意思与火山图类似,但信息更多了一些。此图中每个点代表1个OTU,颜色表示OTU所属的物种分类信息,形状表示其是否显著上下调,大小代表OTU的平均丰度。

绘图

推荐教程

无需代码即刻绘制

Reference


  • https://www.data-to-viz.com/graph/scatter.html

  • https://www.r-graph-gallery.com/scatterplot.html

  • https://www.data-to-viz.com/graph/connectedscatter.html

往期精品(点击图片直达文字对应教程)

bada71d474dec90784c4cbb90776c484.webp

80dd97f1625b2810e5cd7789c23c62b0.webp

a4655a2f2ebfa01bf77ed40fa13011b4.webp

b8c14f1ea09d2779c18c94e13543f37a.webp

6cc38282b08ddcc9694d045f95348abf.webp

d07385ddbcfbc60944ba4967e1b31274.webp

ef5ef4d89aacd46b02c44e2f00e9ae6d.webp

17c2b431b74f91651c24fc9874f3b70b.webp

8bc8a4e2aa0eaea743ea19c4cc94fee5.webp

a4778be4ec7b1bb8cc4421c330ee81d8.webp

4770fb148c080a7a53b7f54a36932eac.webp

5ebdd5f2b974c514ff0c272484ea4a4a.webp

b94b0f746765c7e91574d3e6d3a34745.webp

e78d5d87a49895cb6b707f2e1032db31.webp

ea7bafcde3c26a55351925d84cd44b53.webp

498681144820b7e36b161622ff8d0baa.webp

6fb6ca4901932d6fcda22be90e5b41ea.webp

729c30126f02d7f64eb944e5f9b786a0.webp

8051da994e800235c250eeff7a1d887c.webp

8a28b945d8b6a822fb71c343df35a582.webp

e3744fb621e2458ca98bc9cada794120.webp

f52e8c063bcfaffa35c879b4bfcf40a7.webp

ad730ff070592a4adf6fd635544d7767.webp

25762f13f2cd1f326ab527930dd55744.webp

1a0cff0c1931e519d9d8b215edfd1a4e.webp

9e033d6beadd1de50ef9c495da906bdc.webp

9a44e9d76bac36b9b12dd7a29a6c316b.webp

2ed6c8fdf5ee7dee2b3b572c7430a5c2.webp


后台回复“生信宝典福利第一波”或点击阅读原文获取教程合集

d27f2cb508f42cd1882e2d3a965ac346.webp


浏览 38
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报