0371-8615 9608 传真0371-8615 9609
郑州万田生物科技有限公司
ZHENGZHOU WANTBIO CO.,LTD
Q  Q:809582975
电话:0371-8615 9608
传真:0371-8615 9609
邮箱:wantbio@126com
网址:www.wantbio.com
地址:郑州商城路257号

仪器设备-科研仪器网 keyan17.cn
试剂耗材-万田生物网 wantbio.com
蛋白质组数据分析
作者:admin    发表时间:2015-09-23

蛋白质组数据分析

1. 传统蛋白质组学研究

目前基于质谱仪器的蛋白质组学研究多数利用EBI的IPI、NCBI的NR和SWISSPROT作为数据库对蛋白进行检索鉴定。因此,在已获取这三类数据库的实验鉴定结果后,我们可以实现以下分析:

数据库交叉注释批量查询

将IPI号转化成UniProtKB/Swiss-Prot, UniProtKB/TrEMBL, Refseq, GI, ENSEMBL, UniGene, Entrez Gene(Gene ID)和Symbol等。将SP号转化成EMBL, IPI, Refseq, GI, ENSEMBL, UniGene, Entrez Gene(Gene ID), Symbol, IntAct, GeneCards, MIM等。

数据库功能注释查询
批量查询IPI号:

  • GO的 Biological Process, Subcellular Location, Molecular Function;
  • 染色体定位信息;
  • 结构域信息,包括:InterPro, Pfam, SMART, PROSITE, PRINTS等。

批量查询SP号:

  • GO的 Biological Process, Subcellular Location, Molecular Function;
  • 染色体定位信息;
  • 功能信息、二聚体信息、剪切体信息和组织表达特异性信息;
  • 结构域信息,包括:InterPro, Pfam, SMART, PROSITE, PRINTS等;
  • 蛋白修饰信息,包括:磷酸化、糖基化、甲基化、乙酰化等;
  • 相互作用蛋白,包括:IntAct, Reactome, DIP等;
  • 通路信息,包括:KEGG, Biocarta, Protein Lounge, Pathway_Interaction_DB等。

ID 号比较

      基于多批数据集之间的比较,采用数据交叉表和venn图方式表示数据集之间的交盖性。

       表. 数据集之间交盖度。


 

      图. 数据集之间venn图。 

蛋白序列分析

许多数据库可能没有提供相关蛋白的功能注释,我们可以利用蛋白序列预测相关的功能。
序列相关的预测涉及:

  • 膜蛋白和跨膜区段预测;
  • 亚细胞定位预测;
  • 信号肽预测;
  • 分泌蛋白预测;
  • 翻译后修饰预测:磷酸化位点、N-糖基化位点、O-糖基化位点、阴阳位点(即磷酸化和O-糖基化竞争位点)预测。
  • 根据蛋白序列计算出相关理化性质,包括分子量、等电点、疏水性、酸性氨基酸数目、碱性氨基酸数目和蛋白长度。

       图. 鉴定蛋白的理化性质分布图。 

 


        图. 分子量和等电点在样本之间的比较。

染色体定位

已知蛋白的鉴定号,批量调取蛋白定位信息,并图示化:


      图. 鉴定蛋白染色体定位图示

基因富集度计算

在蛋白组学中,对大规模的鉴定结果经常用pie图或bar图表示蛋白的某个分类,如亚细胞定位、生物功能、生物通路等。有时也会考虑这些分子在哪些疾病分子交盖比例过高。


         图. Bar图表示鉴定蛋白在分子功能上的富集度。

GO 分析

通过一般数据库查询给出特定蛋白的GO信息烦多,很难进行统计分类。我们可以将所有鉴定蛋白的GO都slim到特定的GO分类上,便于下一步的统计和图示化。已在上图中标示。 
 


       图. Pie图表示鉴定蛋白在亚细胞定位上的分类。

网络分析

通过蛋白的差异谱或实际鉴定谱,可以在各种相互作用数据库中找到对应的相互作用蛋白,并构画出相互作用网络。 
 


       图. 鉴定蛋白构建相互作用网络。
 

      图. 鉴定蛋白构建Transfac转录调控网络。

通路分析

对已鉴定蛋白可以mapping到通路数据库中,给出mapping的统计结果并图示化。


     图. 通路总体mapping情况。

     图. 蛋白标记定量数据在KEGG通路图中的mapping

 


     图. 蛋白标记定量数据在Protein Lounge通路图中的mapping

 

2. 比较蛋白质组学研究

在比较蛋白质组研究中经常用到标记定量手段,如ICAT, ITRAQ等,这样可以获取多组样本之间同一个蛋白的表达趋势。我们可以采用多元统计学的方法表现鉴定的结果。 

差异蛋白筛选 

在两两比较的比较蛋白质组学中,要找出差异的蛋白列表,可以用正态分布拟合方法筛选


     图. 蛋白相对定量的数据通过log转换拟合成正态分布,再通过正态分布的95%和99%置信线对表达差异的数据进行筛选
 
共表达模式挖掘 
在四标或八标的Itraq定量中,挖掘共表达趋势的蛋白类别。 
     图. 用Kmean对蛋白相对定量的数据共表达模式筛选 

分层聚类挖掘
 
在四标或八标的Itraq定量中,展示表达趋势相近的蛋白。 

     图. 用聚类热图展示蛋白相对定量数据中表达趋势相近的蛋白

3. 修饰蛋白质组学研究

蛋白特定的修饰鉴定后,想挖掘修饰位点附近氨基酸组成的状况,可以用聚类图或氨基酸比例图展现。


     图. 用热图形式展示靶标修饰氨基酸附近的氨基酸组成情况
     图. 用概率图形式展示靶标修饰氨基酸附近的氨基酸组成情况 

4. 高级分析

IPA 分析 (商业软件,需要license)

IPA是一种公认的生物数据分析工具,非常适用于疾病相关的数据分析。它的主要特色在于根据实际数据找到疾病分子的网络和通路,甚至在其基础之上构建自己的网络和通路。 


图. IPA捕捉到差异分子形成网络。
 
GSEA 分析

可以结合表达量的数据找到相关的基因集合。此处,基因集合泛指包含一堆基因的类别名称,可以是GO中的某一类,通路中的某一条或转录调控和相互作用网络中的某个小模块。 


     图. GSEA捕捉到差异分子的基因集合

 

Copyright © 2015 All rights reserved.    版权所有:郑州万田生物科技有限公司
电话:0371-8615 9608 传真0371-8615 9609     地址:郑州市商城路257号科瑞大厦8楼 豫ICP备15006922号    郑州做网站
收缩
  • 电话咨询

  • 0371-8615 9608 传真0371-8615 9609