前段时间互联网上弥漫着有关FPKM / RPKM与TPM的回帖,或许TPM愈来愈盛行了,但很多定序子公司的预测项目组还没化学反应回来,依然在僵硬地把FPKM提供更多给顾客。因此弄得很多爸爸妈妈内心深处极为苦恼,它差别有多大?子公司给我的是FPKM,对差别DNA甄选是并非负面影响?
哈哈,那时你来对了,责任编辑细穗各式各样苦恼!
1.?RPKM / FPKM与TPM的差别
前文已然说了,那个难题搜两把能搜获一大把,我就不说了。
但,你可能将比我还懒,我却是单纯贴呵呵基本概念吧!
RPKM:Reads PerKilobase Per Million Reads
FPKM:Fragments Per Kilobase Per Million Reads
TPM:Transcripts Per Million Reads
能窥见,RPKM与FPKM仅仅而已一两件事,而已前者用的是配线定序(因此称作Read),前者用的是配线定序(配线测的是同两个Fragment)。但那时大体上尽是配线定序了,因此RPKM已然光辉无此了。
TPM并并非前段时间出的,或者说盛行的很慢,但前段时间愈来愈多的预测相关人员已经开始拒绝接受它,很多预测应用软件里的明日之星也都优先选择了它。
为何?这总之是有其原因的!
即使,TPM更快!
有两个关键分项能较好表明那个难题:FPKM的造物主Pachter已然更偏激于采用TPM了!
在同两个个样本内,无论是用FPKM却是TPM都是一样的,它的相关性是1,TPM对总的定序reads进一步做了均一化,因此它的最直观的差别就是,不同样本间TPM的总和是相同的,而FPKM的总和不同!能想象,TPM使得我们更容易去比较同两个个DNA在不同样本中所占的read数的比例。
哦!TPM更快?那我更苦恼了!子公司只给了我FPKM啊,这对差别DNA甄选是并非负面影响?我甄选出的差别DNA很少是并非和那个有关?
2.?主流差别抒发预测应用软件从来不用TPM作为输入
鉴于TPM的盛行势头,下文方中仅以TPM代表所有RPKM / FPKM或TPM等此类均一化抒发数据。
大部分差别抒发预测应用软件并不支持采用TPM进行差别抒发DNA甄选(总之也有极少数不推荐的应用软件例外,如Tuxedo),最主流的DE(differential expression)预测应用软件DESeq2?和?edgeR?,包括我强烈向大家推荐的sleuth包,都强调输入数据为:Raw read counts (not normalized)?!
为何说它是最主流的?并且我也只推荐这几种工具(推荐顺序sleuth > DESeq2 > edgeR),是即使它经受了更多的测试,并且也是引用人数最多的,空口无凭,总之有引文数据为证:
3.?用TPM的进行差别抒发预测并非不好,是不能!
?
那么为何DE预测工具不用TPM呢?
首先,是没必要。不同样本间同两个DNA是否存在抒发差别跟DNA长短没有关系!单纯化一点,假如AB两个样本定序特征相同(实际数据总之要经过一系列校正),那么无论某DNA是1kb却是10kb,只要那个DNA在A样本中map到的reads比B样本多,那么该DNA在A样本中抒发量就比B样品高,根本不需要考虑DNA长度!
其次,是不能。即使差别抒发预测应用软件要做的是多样本间同两个特征比较前的均一化,而获得TPM时做的是样本内所有特征的均一化,两者目标不同,方法总之也不同,因此,如果用TPM等均一化后的数据进行差别抒发预测不仅仅是画蛇添足,也不仅仅是丢失许多信息,它的后果很严重。
拿我自己的数据举个例子:两个样本,两个对照组,两个处理组,每组6个生物学重复,分别用Raw read counts与TPM做为输入,利用DESeq2进行差别抒发预测(即使edgeR?通常甄选到的差别DNA要少很多,而sleuth要输入其它数据,因此利用DESeq2单纯作个例子),甄选标准为log2FC > 0.5,padj?,结果如下:
是并非很惊喜,是并非很意外?
用TPM只甄选到了不到4%的差别DNA,但想一想,这却是很容易理解的,做完均一化,TPM在数值上变小了,样本间的差别也被缩小了,再做一遍校正,差别就没了,你用EXCEL算出都比这多(但依然不建议这么做)。
4.?TPM,要你何用?
无论子公司给你的结果用的是TPM却是FPKM,都不负面影响你的差别抒发DNA集,真正负面影响它的是差别预测应用软件!(提醒呵呵,不同应用软件,差别可能将很大哦!)
估计有同学想拍桌子了,我做转录组就是来甄选差别抒发DNA的,既然你连那个都做不了,那还要你TPM干什么?
即使TPM是对样本内所有DNA进行了均一化的,因此如果你想知道两个样本内ADNA与BDNA哪两个抒发量高?或者ADNA在那个样本所有mRNA中所点的比例等此类事情,TPM是个绝对必要的优先选择。实际上,除了差别抒发DNA甄选,后续的PCA、聚类预测、共抒发预测、热图等都要用TPM。
TPM并并非万能的,如果两种组织中mRNA的总量本来就差得很多,怎么办?因此,参数的好坏关键要看用得合不合适。
因此,皇上,并非臣妾分内之事,臣妾做不到啊!
发表评论