闲言少叙。在内卷平常化的现在,生信分析和数据挖掘仍是大势所趋。不思进取的国外数据平台Oncomine将于2022年1月17日终止服务(惋惜,Oncomine将于2022年1月17日终止服务)。但是,北大张泽民教授率领的GEPIA数据分析平台已经从初级版本到GEPIA2.0,再到GEPIA2021,芝麻开花节节高平,并于2018年创办百奥智汇,提供单细胞测序服务(/#page9)。个人看来,GEPIA目前是综合分析TCGA和GTEx数据最好的平台,而且还在不断优化。因此,芒果根据多次整理,并参考其他公众号的推文,整理出生信漫谈02:GEPIA教程(用这套GEPIA教程,我的论文又接收了)。
作为新型交互式网站,GEPIA使用标准流程(下图)分析来自TCGA和GTEx的9736个肿瘤和8587个正常样本的RNA测序数据。GEPIA提供可定制的功能,例如肿瘤/正常差异表达分析、根据肿瘤类型或病理分期进行分析、患者生存分析、相似基因检测、相关性分析和降维分析。
文献引用
Tang, Z. et al. (2017) GEPIA: a web server for cancer and normal gene expression profiling and interactive analyses. Nucleic Acids Res.
GEPIA网址(建议收藏保存)
style="white-space: normal;">
GEPIA无需edu后缀的邮箱注册,直接登录即可,门槛相当低,任何人都可以免费使用;操作也非常简单,通过点点点就可以进行综合全面的分析;非常适合生信分析入门。
GEPIA数据库的主要功能
单基因分析,差异分析,与肿瘤分期的相关性,生存分析和相似基因。
肿瘤类型分析,包括筛选与肿瘤关系、影响生存最密切的基因。
多基因分析,包括基因表达的相关性和降维分析等。
免疫细胞类型分析,用于探究肿瘤的免疫浸润分析(GEPIA2021新增)。
关于具体的使用方法,结合百篇生信论文实例,我们从网站思路,到数据展示,到方法写作和结果描述,全景式展示GEPIA的使用。生信论文套路,肿瘤和非肿瘤主题通用版
差异表达 (differential expression)+湿实验验证;
生存分析 (survial analysis)+临床数据统计;
相关分析 (correlation analysis);
统计分析 (statistical analysis);
组学分析 (genomic alterations);
免疫分析 (tumor infiltration analysis);
富集分析(enrichment analysis);
机制体外验证(in vitro experiments)+湿实验验证。
Oncomine平台数据分析可分为三种情况:①单个基因在多种肿瘤中的差异表达;②单个或多个基因在特定肿瘤中的差异表达;③分析特定肿瘤中差异表达的基因或共表达基因。我们前面已经做过系列分享。Oncomine平台分析数据,展示数据的方法已经为后来者树立典范。幸运的是,所有Oncomine平台的分析,在GEPIA数据库中均有所体现,甚至得到优化升级。
关于GEPIA数据平台的使用,我们已经从相关分析、筛选具有表达或生存差异的基因和单基因分析等角度进行分享,涵盖GEPIA(初级版本)的主要功能。本次,我们将做系统的整理和阐述。对于芒果会员,我们将结合具体事例,于近期举办直播实操演示分享,敬请关注。
GEPIA数据分析平台可分为三大模块:①肿瘤类型分析(Cancer Type Analysis);②单基因分析(Single Gene Analysis);③多基因分析(Multiple Gene Analysis)。内容分类比Oncomine数据平台更清晰、简洁和方便。十种分析就分散在三大模块下面。
肿瘤类型分析:适于筛选具有表达差异或者生存差异的基因,有两种分析;
单基因分析:适于基因确定情况下的生信分析,包括散点图,生存等共五种分析;
多基因分析:适于多基因综合分析,包括多基因对比、相关分析和PCA分析三种情况。
1-1。如何用GEPIA,快速筛选到差异表达的基因
进入GEPIA主页,点击Cancer Type Analysis,选择差异基因(Differential Genes),选择待研究的肿瘤类型,Fold-change和q-value不需要更改,差异统计按照网页提供的ANOVA即可,表达类型,我们选择Over-expressed。本次以卵巢癌(OV)为例进行分享。如果选择List形式,出来的是三线表;如果选择Plot,出来的是染色体颜色图,可以认为是热图。
根据三线表的结果,筛选到符合条件的基因会按照差异变化的程度按照顺路列出。当然,这些基因只具有表达差异,是否影响生存,需要我们再进行分析。
除了上调表达的基因,还是有下调表达的基因,操作类似。
这样,特定肿瘤中的差异表达基因就确定了。
1-2。如何用GEPIA,快速筛选到具有生存差异的基因
①首先,登录官网(/),出现如图所示的页面。
②点开肿瘤类型(Cancer Type Analysis),下面有两个选项,上面是差异基因分析,下面是差异生存分析,选择Most Differental Survival Genes。
③我们选定肿瘤类型,从特定肿瘤出发,这里我们仍然以卵巢癌为例进行演示。Methods这里有两个选项,全生存期和无病生存期,两个只要其中一个有显著差异就符合我们的筛选条件。这里,我们仍然以趋化因子家族作为待筛选基因家族。生信分析论文,最后成文的时候可以是单个基因,但是在进行差异表达和生存差异表达分析的时候,一定是基因家族!
④逐个输入待筛选基因的名称,就能确定该基因的差异表达是否影响患者的生存,卵巢癌中有起码100个基因影响患者的生存。比如,我们会看到趋化因子CXCL13赫然在列。
⑤点击进入页面,出现如图所示的界面。
⑥而生存曲线展示出来,CXCL13在卵巢癌中高表达和低表达确实会影响患者的全生存期,表达越高,生存时间越长。这似乎也可以用CCL5和CXCL9的理论进行阐释。
⑦而且有意思的是,进一步的差异表达验证显示,CXCL13在肿瘤中高表达。
因此,一篇CXCL13在卵巢癌中的生信分析论文就有雏形了。那么,其他肿瘤也可以用类似的方法和操作进行生存差异基因的筛选。
时至今日,个人依然认为差异表达和生存分析是生信分析中的两个核心内容,其他分析比如相关分析,免疫分析和富集分析等都可以各种形式参与到差异表达和生存分析中来。比如我们文献101中看到的相关分析,T细胞相关趋化因子与CD8 T细胞浸润的相关分析,其实本质上是一种差异分析,也就是筛选出与肿瘤中CD8 T细胞浸润有明显相关(差异表达)的基因。
最近一直在琢磨为什么表达差异和生存分析这么重要内呢?其实,本质上就是科研与基础的结合!!差异表达涉及中心法则,生存分析涉及临床表现,而这两者恰恰是生信分析的核心,巧妙地将基础研究和临床实践结合起来。因此,差异表达和生存分析的重要性是显而易见的!那么,我们如何用GEPIA进行生存差异基因的筛选呢?估计很多果友也没有注意过吧。因此,在线数据平台的功能,有时强大到我们无法想象。真的是“只有想不到,没有做不到”。
在特定肿瘤下,用GEPIA筛选差异表达或影响生存的基因,属于Cancer Type Analysis。接下来,我们从单基因分析(Single Gene Analysis)的角度阐释生信分析的思路和方法。GEPIA数据库单基因分析的内容与Oncomine平台的内容类似,但内容更丰富,分析更方便。
我们在进行单基因分析的时候,更关注①有无表达差异(Boxplot),Profile个人感觉有点丑,暂不做展示;②与病理分期是否相关(Stage);③表达差异能否影响生存(Survival Analysis;④有哪些类似基因(Similar),类似基因分析用到的比较少,目前还没有看到在生信论文中的使用。
2-1。表达差异分析
差异分析是GEPIA最基础的功能,这与其他数据库基本一致。既可以展示某基因在所有肿瘤的表达情况(个人认为散点图极丑,没有展示),柱状图展示,清晰明了,但是没有p值。
也可以展示某个基因在特定肿瘤的差异表达情况。直接输入基因名称,选择要分析的肿瘤,点击plot即可。各种参数一般不需要修改,肿瘤和正常标本的颜色可以稍作调整。选择Matched Normal data的时候,我们一般选择Match TCGA normal and GTEx data。
得出柱状图,此时的结果是有p值的。以ERBB2在乳腺癌中的表达分析为例,最终得出结果。
当然,也可以做多基因的差异表达,可以与其他数据库的结果做平行分析。比如,E2F基因家族在乳腺癌中的差异表达,GEPIA分析显示,E2F1、E2F2和E2F8具有显著差异。
2-2。与病理分期的相关分析
基因表达与肿瘤分期的相关分析在生信论文里面很常见,GEPIA也可以进行这种相关分析。具体操作比较简单,我们就不做详细演示了。
比如,某基因家族与肾癌分期的相关分析
比如,E2F基因家族与乳腺癌分期的相关分析
2-3。生存分析
用GEPIA做生存分析,操作也很简单,就是点点点,输入基因名称,选择要分析的生存参数(OS或RFS),选择待分析的肿瘤,点击Plot即可。
然后就会呈现出生存曲线,直接方便,一般与KM plotter或PrognoScan数据库等联合使用。
2-4。类似基因分析
论文中目前尚未看到其使用,操作也很简单,网页默认是类似基因的Top20,也可自行调整。
类似基因主要用于查找与兴趣基因有关的基因,其使用有待深度挖掘。
对于多基因分析,GEPIA数据库可以说实升级版Oncomine,值得我们更多的挖掘和探索。在既往的分享中,我们一直强调差异分析和生存分析,并将它们列为生信论文的两个核心。事实上,当我们分析做的多了,就会发现,其实相关分析也可以蕴含在差异分析和生存分析之中。尤其是我们在文献分享101里面(芒果文献101-1.趋化因子与CD8 T细胞浸润的相关分析),可以看到多种相关分析结果展示的形式,比如散点图,比如森林图,比如热图,比如三线表。本质上讲,只要有数据,展示方式是可以任选的。
3-1。多基因对比
多基因对比非常适用于家族基因在肿瘤中的泛癌分析和整体展示,操作也很简单。点击进入多基因分析页面,会出现下图。
Gene list官网提供一些示例,我们可以输入自己关心的基因,数据集(Dataset)选择All,匹配的正常数据选择Match TCGA normal and GTEx data,Tissue Order可以对肿瘤类型进行重新排序,官网是按照字母顺序排列,我们可以按照肿瘤发病率或死亡率进行调整。
3-2。相关分析
本次,我们重点分享散点图(类似于图F)的操作方法,这是最直观、最简单的相关分析结果展示方法,难度不大,适合入门。我们将结合文献101的数据进行操作演示。
首先,在GEPIA官网有个专门做Correlation分析的选项。系统默认的是ERBB2基因。
点击进入即可打开相关分析的页面,系统默认的是ERBB2和EGFR两个基因。其中系统默认的相关程度用皮尔逊相关系数(Pearson Correlation Coefficient)来评估,衡量两个随机变量之间的线性关系。
Pearson相关系数的绝对值越大,相关性越强。相关系数越接近于1或-1,相关度越强,相关系数越接近于0,相关度越弱。通常情况下通过以下取值范围判断变量的相关强度:
0.8-1.0极强相关;0.6-0.8强相关;0.4-0.6中等相关;0.2-0.4弱相关;~0.2极弱或无相关。
对于x,y之间的相关系数r :
当r大于0小于1时表示x和y正相关关系;当r大于-1小于0时表示x和y负相关关系;
当r=1时表示x和y完全正相关,r=-1表示x和y完全负相关;当r=0时表示x和y不相关。
此外,还有两种相关程度评估方法,Spearman和Kendall相关系数。Spearman和Kendall都是等级相关系数,与两个相关变量的具体值无关,而仅仅与其值之间的大小关系有关。
Spearman相关系数是对随机变量的等级而不是其原始值衡量相关性的一种方法,对不服从正态分布的资料、原始资料等级资料、一侧开口资料、总体分布类型未知的资料不符合使用积矩相关系数来描述关联性。Spearman相关系数可以用计算Pearson系数的方法,只需要把原随机变量中的原始数据替换成其在随机变量中的等级顺序,比如
1,10,100,1000替换成1,2,3,4;
1000,1,100,10替换成4,1,3,2,然后求替换后两个随机变量的Pearson相关系数。
肯德尔相关性系数也是一种秩相关系数,不过它所计算的对象是分类变量。分类变量可以理解成有类别的变量,可以分为无序的,比如性别(男、女)、血型(A、B、O、AB);有序的,比如肥胖等级(重度肥胖,中度肥胖、轻度肥胖、不肥胖)。
在用GEPIA进行相关分析时,一般选用Pearson。
在选择标本类型时,个人的习惯是TCGA tumor,TCGA Normal和GTEx都要勾选。本次我们就操作CCL5和CXCL9与卵巢癌、乳腺癌、结肠癌、肾癌、肺癌、子宫颈癌和黑色素瘤中的CD8A的相关分析,相当于数据重现。
首先是卵巢癌,输入基因,选定肿瘤和对照(TCGA Norma数据缺失,忽略),即可得到散点图,然后复制到PPT中,其他肿瘤依次类推。
最后我们得到相关分析的结果图如下。根据该结果,文献中的相关结果还是很可靠的。基本相关席数都在0.7以上,属于强相关关系。这样的结果就可以用于论文发表了。
3-3。主成分分析(Principal Component Analysis,PCA)
设法将原来变量重新组合成一组新的互相无关的几个综合变量,同时根据实际需要从中可以取出几个较少的综合变量尽可能多地反映原来变量的信息的统计方法叫做主成分分析,是数学上用来降维的一种方法。
在用统计分析方法研究多变量的课题时,变量个数太多就会增加课题的复杂性。人们自然希望变量个数较少,而得到的信息较多。在很多情形中,变量之间具有相关性。当两个变量之间有相关性时,可以解释为这两个变量反映此课题的信息有一定的重叠。主成分分析是对原先提出的所有变量,将重复变量(关系紧密的变量)删去多余,建立尽可能少的新变量,使得这些新变量是两两不相关的,而且这些新变量在反映课题的信息方面尽可能保持原有的信息。
进入PCA页面,输入关心的基因名称,选定肿瘤类型,然后点击List即可。这部分功能在GEPIA初级版本中总是遇到问题,大家可以转移到GEPIA2中进行相关操作。