用户 密码
 
 

 

> 最新通知

> 国际国内科学新闻

> 文化建设

 
 
新闻中心 > 最新通知 > 正文 < 返回
数学不好,但不影响我看火山图
阅读:42次 | 来源:医学科研小坑 | 2025/12/8 11:37:31

生信很多不是那种excel一键设置普通图表,例如火山图,今天来认识一下它


此图整合了差异倍数(fold change)显著性(p-value)两个重要指标。

乍一看很高级很唬人不知道怎么看但实际上,它就是一种更容易看的散点图统计结果可视化

虽然里面又是 log 又是 adjusted p-value 看起来很需要高数及格的样子,但这不是火山图的灵魂。

老司机的数学不好(好的话就不是实验老司机了),这不妨碍读图,让我们以不是很懂统计学的实验猿视角来观察火山图看看核心信息什么

1 结合应用来讲解

火山图是组学很喜欢用的一种图表,为了直观显示哪些代谢物表达量上调了哪些下调了。

以蛋白质组学为例,我们在这里假设一个实验场景:当我们使用某试剂处理了一个样本后,想看有哪些蛋白质的表达量会随处理(刺激)变化,需要把它们筛选出来进行下一步研究。

这时我们就需要知道表达量变化了多少才算发生显著变化,就需要画一道分水岭,把发生显著变化的蛋白分出来,把不能确信的表达量变化(也就是 p-value 过高的)分离出去,这也就是显著性水平线的作用

此外,当我们筛选出发生显著变化的蛋白后,表达量上调和下调的蛋白肯定要分别研究,所以还要进一步区分这些表达量发生了显著变化的蛋白。

但是,“正常状态”不是一个绝对的数字,量血压还有一个正常范围,所以在这里也一样,还要把那些“变化了,但变得不多”的蛋白给去掉,这就是火山图中间这道灰色的竖着的部分。

如此一来,我们就整合了在开头所说的两种数据:差异倍数(fold change)和显著性(p-value),也就是“上/下调的幅度”和“数据可信度”。

每一个蛋白都有一组它的表达量数据,据此画图,以表达量偏移程度和显著性为坐标,每一个点代表一个蛋白,它都可以在坐标系中找到自己的专有位置。

我们再设置两道阈值:其一是显著性水平线,也就是下图中红色的基线,显著性不比它强的都算作无效数据。

其二是表达量的阈值,评定是否偏移出通常范围,这个波动幅度是否可以称之为“上/下调”。然后我们将发生了明显上/下调的蛋白质散点都染上不同颜色,就可以得到这样的散点图。

这样看是否很明确呢?

2 从火山图可以获得什么信息

那么,当我们阅读一张火山图获取什么信息

继续以刚才假设的实验场景为例:画图不仅是为了好看为了信息

譬如我们在研究如何促进细胞铁死亡,此时经过药物处理后,我们画出这样的火山图,发现其中对铁死亡起重要抑制作用的蛋白 GPX4 位于左上角,也就是显著下调,那就说明这个药物处理很可能促进铁死亡。

因此,对于一张火山图,我们通常只需要看左上和右上两部分即可。

另外还有一个小问题:为什么纵轴非得用 -log10 (adjusted p-value)?其实是因为 p-value 一般要 <0.05,这个值在纵轴上离原点太近了,不好看,所以需要对数转换,这样看起来比较直观。





 

 
上一篇: 没有了
下一篇: 何时用WB,何时用流式
 
↑TOP < 返回
 
 
 
 
  西南医科大学附属中医医院中西医结合研究中心
Copyright @ 2021 . Research Center of Integrated Traditional Chinese and Western Medicine, All Rights Reserved
蜀ICP备15028774号