1. 传统蛋白质组学研究
目前基于质谱仪器的蛋白质组学研究多数利用EBI的IPI、NCBI的NR和SWISSPROT作为数据库对蛋白进行检索鉴定。因此,在已获取这三类数据库的实验鉴定结果后,我们可以实现以下分析:
数据库交叉注释批量查询
将IPI号转化成UniProtKB/Swiss-Prot, UniProtKB/TrEMBL, Refseq, GI, ENSEMBL, UniGene, Entrez Gene(Gene ID)和Symbol等。将SP号转化成EMBL, IPI, Refseq, GI, ENSEMBL, UniGene, Entrez Gene(Gene ID), Symbol, IntAct, GeneCards, MIM等。
数据库功能注释查询
批量查询IPI号:
- GO的 Biological Process, Subcellular Location, Molecular Function;
- 染色体定位信息;
- 结构域信息,包括:InterPro, Pfam, SMART, PROSITE, PRINTS等。
批量查询SP号:
- GO的 Biological Process, Subcellular Location, Molecular Function;
- 染色体定位信息;
- 功能信息、二聚体信息、剪切体信息和组织表达特异性信息;
- 结构域信息,包括:InterPro, Pfam, SMART, PROSITE, PRINTS等;
- 蛋白修饰信息,包括:磷酸化、糖基化、甲基化、乙酰化等;
- 相互作用蛋白,包括:IntAct, Reactome, DIP等;
- 通路信息,包括:KEGG, Biocarta, Protein Lounge, Pathway_Interaction_DB等。
ID 号比较
基于多批数据集之间的比较,采用数据交叉表和venn图方式表示数据集之间的交盖性。
表. 数据集之间交盖度。
图. 数据集之间venn图。
蛋白序列分析
许多数据库可能没有提供相关蛋白的功能注释,我们可以利用蛋白序列预测相关的功能。
序列相关的预测涉及:
- 膜蛋白和跨膜区段预测;
- 亚细胞定位预测;
- 信号肽预测;
- 分泌蛋白预测;
- 翻译后修饰预测:磷酸化位点、N-糖基化位点、O-糖基化位点、阴阳位点(即磷酸化和O-糖基化竞争位点)预测。
- 根据蛋白序列计算出相关理化性质,包括分子量、等电点、疏水性、酸性氨基酸数目、碱性氨基酸数目和蛋白长度。
图. 鉴定蛋白的理化性质分布图。
图. 分子量和等电点在样本之间的比较。
染色体定位
已知蛋白的鉴定号,批量调取蛋白定位信息,并图示化:
图. 鉴定蛋白染色体定位图示
基因富集度计算
在蛋白组学中,对大规模的鉴定结果经常用pie图或bar图表示蛋白的某个分类,如亚细胞定位、生物功能、生物通路等。有时也会考虑这些分子在哪些疾病分子交盖比例过高。
图. Bar图表示鉴定蛋白在分子功能上的富集度。
GO 分析
通过一般数据库查询给出特定蛋白的GO信息烦多,很难进行统计分类。我们可以将所有鉴定蛋白的GO都slim到特定的GO分类上,便于下一步的统计和图示化。已在上图中标示。
图. Pie图表示鉴定蛋白在亚细胞定位上的分类。
网络分析
通过蛋白的差异谱或实际鉴定谱,可以在各种相互作用数据库中找到对应的相互作用蛋白,并构画出相互作用网络。
图. 鉴定蛋白构建相互作用网络。
图. 鉴定蛋白构建Transfac转录调控网络。
通路分析
对已鉴定蛋白可以mapping到通路数据库中,给出mapping的统计结果并图示化。
图. 通路总体mapping情况。
图. 蛋白标记定量数据在KEGG通路图中的mapping
图. 蛋白标记定量数据在Protein Lounge通路图中的mapping
2. 比较蛋白质组学研究
在比较蛋白质组研究中经常用到标记定量手段,如ICAT, ITRAQ等,这样可以获取多组样本之间同一个蛋白的表达趋势。我们可以采用多元统计学的方法表现鉴定的结果。
差异蛋白筛选
在两两比较的比较蛋白质组学中,要找出差异的蛋白列表,可以用正态分布拟合方法筛选
图. 蛋白相对定量的数据通过log转换拟合成正态分布,再通过正态分布的95%和99%置信线对表达差异的数据进行筛选
分层聚类挖掘
图. 用聚类热图展示蛋白相对定量数据中表达趋势相近的蛋白
3. 修饰蛋白质组学研究
蛋白特定的修饰鉴定后,想挖掘修饰位点附近氨基酸组成的状况,可以用聚类图或氨基酸比例图展现。
图. 用热图形式展示靶标修饰氨基酸附近的氨基酸组成情况
4. 高级分析
IPA 分析 (商业软件,需要license)
IPA是一种公认的生物数据分析工具,非常适用于疾病相关的数据分析。它的主要特色在于根据实际数据找到疾病分子的网络和通路,甚至在其基础之上构建自己的网络和通路。
图. IPA捕捉到差异分子形成网络。
GSEA 分析
可以结合表达量的数据找到相关的基因集合。此处,基因集合泛指包含一堆基因的类别名称,可以是GO中的某一类,通路中的某一条或转录调控和相互作用网络中的某个小模块。
图. GSEA捕捉到差异分子的基因集合