生信中有很多不是那种能在excel里一键设置的普通图表,例如火山图,今天来认识一下它。
此图整合了差异倍数(fold change)和显著性(p-value)两个重要指标。
乍一看:哇,很高级很唬人,不知道怎么看。但实际上,它就是一种更容易看的散点图,是将统计结果可视化。
虽然里面又是 log 又是 adjusted p-value 看起来很需要高数及格的样子,但这不是火山图的灵魂。
老司机的数学不好(好的话就不是实验老司机了),这不妨碍读图,让我们以不是很懂统计学的实验猿视角来观察火山图,看看它的核心信息是什么。
1 结合应用来讲解
火山图是组学很喜欢用的一种图表,为了直观显示哪些代谢物表达量上调了哪些下调了。
以蛋白质组学为例,我们在这里假设一个实验场景:当我们使用某试剂处理了一个样本后,想看有哪些蛋白质的表达量会随处理(刺激)变化,需要把它们筛选出来进行下一步研究。
这时我们就需要知道表达量变化了多少才算发生显著变化,就需要画一道分水岭,把发生显著变化的蛋白分出来,把不能确信的表达量变化(也就是 p-value 过高的)分离出去,这也就是显著性水平线的作用。
此外,当我们筛选出发生显著变化的蛋白后,表达量上调和下调的蛋白肯定要分别研究,所以还要进一步区分这些表达量发生了显著变化的蛋白。
但是,“正常状态”不是一个绝对的数字,量血压还有一个正常范围,所以在这里也一样,还要把那些“变化了,但变得不多”的蛋白给去掉,这就是火山图中间这道灰色的竖着的部分。
如此一来,我们就整合了在开头所说的两种数据:差异倍数(fold change)和显著性(p-value),也就是“上/下调的幅度”和“数据可信度”。
每一个蛋白都有一组它的表达量数据,据此画图,以表达量偏移程度和显著性为坐标,每一个点代表一个蛋白,它都可以在坐标系中找到自己的专有位置。
我们再设置两道阈值:其一是显著性水平线,也就是下图中红色的基线,显著性不比它强的都算作无效数据。
其二是表达量的阈值,评定是否偏移出通常范围,这个波动幅度是否可以称之为“上/下调”。然后我们将发生了明显上/下调的蛋白质散点都染上不同颜色,就可以得到这样的散点图。
这样看是否很明确呢?
2 从火山图可以获得什么信息
那么,当我们阅读一张火山图时,能从中获取什么信息呢?
继续以刚才假设的实验场景为例:画图不仅是为了好看,更是为了好从中看出信息。
譬如我们在研究如何促进细胞铁死亡,此时经过药物处理后,我们画出这样的火山图,发现其中对铁死亡起重要抑制作用的蛋白 GPX4 位于左上角,也就是显著下调,那就说明这个药物处理很可能促进铁死亡。
因此,对于一张火山图,我们通常只需要看左上和右上两部分即可。
另外还有一个小问题:为什么纵轴非得用 -log10 (adjusted p-value)?其实是因为 p-value 一般要 <0.05,这个值在纵轴上离原点太近了,不好看,所以需要对数转换,这样看起来比较直观。
|