DNA的大规模测序在很短的时间里改变了医学生物学研究的面貌。在弄清楚了大多数基因之后,全面认识基因产物及其在生命活动中的作用的时机已经到来。在这种形势下,蛋白质组学作为后基因组时代生命科学的新的研究领域应运崛起。
蛋白质组学(Proteomics)可定义为对细胞蛋白质的全面分析。它将一系列精细的技术,主要有2D-凝胶电泳、图象分析、质谱、氨基酸测序和生物信息学结合起来,大规模地、综合地定量和鉴定蛋白质,被认为是后基因组时代正在发展的关键的研究领域。。
我们聚焦蛋白质分析有若干理由:
(1)人类基因组项目几近完成,提供了各别基因的序列,现在的注意力要转向由这些基因表达出的蛋白质的结构与功能;
(2)基因可以存在,可以突变,但不一定转录,即使转录了,mRNA的水平通常也不能代表细胞中活性蛋白质的量;
(3)蛋白质是功能分子,最可能反映出基因表达的差异。基因分析方法并不能解决如蛋白质翻译后的修饰状况,细胞定位,周转和相互作用等。
(4) 基因组的研究不能告诉我们细胞中发生的动态过程,而生命活动最终由蛋白质体现。
1 蛋白质组学的总战略
从细胞和组织增溶蛋白质
(protein solubilization from cell and tissue )
↓
2D-凝胶电泳
( two-dimensional gel electrophoresis )
↓
凝胶图象分析
(computer image analysis )
↓
分离蛋白斑
( isolation of protein spots of interest )
↓
蛋白斑的酶消化
( enzymatic digestion of protein spots )
↓
MALDI –TOF质谱分析酶解片段
( peptide-mass fingerprinting)
↓
蛋白质的鉴定
( characterization and identification of proteins )
2 技术原理
2.1 组织细胞的分离
要确保分析比较的组织和细胞尽可能形态和功能均一,以防干扰。利用的技术和设备有:流式细胞仪;对分析细胞特异的抗体,用抗体交联的磁珠做免疫沉淀;熟练的显微解剖技术分离组织;从较硬的组织与肿瘤取样,可用激光切割(laser capture)等。
2.2 蛋白质增溶
其原则是要有利于进行IEF(等电聚焦),不致引起蛋白质修饰,以防干扰质谱分析,用化学的、机械的方法破碎细胞和组织,离心将可溶的和未溶的物质分开,分离亚细胞结构;核酸酶除去DNA和RNA,它们干扰电泳。去垢剂用于增溶疏水的和膜结合蛋白,高浓度的SDS不利于IEF,建议用CHAPS和NP40, 尿素变性剂、其他新的还原剂的应用大为提高增溶效果,但过分增溶可能导致2D-电泳部分上样蛋白电荷和质量的重叠,因此根据需要,可用不同的缓冲溶液分级增溶。
2.3 蛋白质的分离
2D-凝胶电泳是最有效最广泛使用的方法,包括两步:利用商品IPG strip进行等电聚焦(IEF),然后是分子筛聚丙烯酰胺凝胶电泳。柯马斯亮蓝染色或银染,但后者戊二醛有使蛋白质交联可能,影响质谱分析。SYPRO荧光染色, 不影响质谱分析,灵敏度相当于银染。2D-HPLC也包括两步: 分子筛色谱和反相HPLC,容量大,快速,可自动化;还有如,HPLC柱与图象毛细管等电聚焦系统连接,有快速的优点。
2.4 计算机图象分析
借助计算机图象分析技术从复杂的蛋白质表达图谱建立蛋白组学的二维数据库。
SWISS 2D-Database (1993年始),有从大肠杆菌到人类,Web site还有从肝细胞到膀胱癌细胞不同来源的蛋白质谱的数据库可利用进行比较。
比较正常的和异常的组织时,注意应是相同的组织来源、抽提和分析方法应类似,专门的分析软件能帮助消除其实验差异。如ELISE、HERMeS系统 和GELLABE系统,它们各有所长。MELANIE 目前广泛用于各种操作系统, 可与蛋白组学数据库连网。凝胶分析软件可以从十分相似的电泳胶之间中找出差异,然后直接从胶上把蛋白斑切下或转印到膜上进行鉴定。Genomics Solution开发出来的蛋白组图象系统可以连接到Protein Picking robotic workstation 上,自动、快速从多块胶上切下成千的蛋白斑,自动转运去进行蛋白质的酶消化。
2.5 蛋白质的鉴定
2D-电泳的结果给出了蛋白质的pI和大致的质量,但不足以鉴定出大多数的蛋白质。
最广泛使用的是肽-质指纹(Peptide-Mass Fingerprinting)技术。 某蛋白质被肽酶,如胰蛋白酶水解后产生一套对这个蛋白而言特异的肽组。用MALDI-TOF 质谱可以分析出这套肽谱的分子量,灵敏度在10-10g水平(对10kD的蛋白),再利用肽-质指纹分析工具,如MS-fit,Mascot或Peptide Search等将肽组中肽的数量和质量与蛋白质序列数据库进行对应比较,以给出被分析的蛋白质的身份。这种分析仅仅当被测蛋白质的资料已经在数据库中存有时适用。
对于只了解部分序列的蛋白质,则必须利用Edman降解测序或者用Nanoelectrospray Mass Chromatography( 利用Electrospray,肽直接从液相离子化)和串联质谱等测序,然后连同质谱数据一同向EST( Expressed Sequence Tag )数据库查询。最新的系统已实现自动化。
3 应用方面
3.1 肿瘤和心血管病
有限的研究在肿瘤标志方面, 从膀胱癌细胞和尿蛋白的2D-电泳,发现Psoriasin,一个低分子量的钙结合蛋白,但尚不能确定。
比较正常乳腺,乳腺癌细胞Cytokeratins和Tropomyosin的表达下降。
蛋白质组学在肾肿瘤研究,结果导致了人肾细胞蛋白组学数据库的建立,其2D-图象有2789个多肽,弄清楚了其中的43个Aa组成,N-末端序列和免疫鉴定,有4个只存在于正常的肾细胞中,在肿瘤中不存在,其中两个是线粒体呼吸链的成分,其基因在肿瘤细胞中丢失了或不能正常的转录和翻译。 组织和病理类型不同的肺癌显示其蛋白组的不同,有一个未知的蛋白在肺原发腺瘤中特异表达。
细胞失去正常的凋亡机制是引起肿瘤的原因之一。 动物细胞模型显示有两种蛋白质水解类型与细胞凋亡相联系,一种在早期阶段,一种在晚期。用蛋白组学研究Burkitt lymphoma BL60 细胞凋亡中核蛋白表达,分析了柯马斯亮蓝染色胶上的36个蛋白斑,结合质谱可鉴定身份的有33个,余下的3个不清楚。鉴定出的蛋白中有的存在在正常细胞中,有的与凋亡有关,为构建诱导细胞凋亡的全面的数据库打下了基础。
2D-电泳胶比较大鼠心肌细胞和药物诱导的心肌肥大的细胞的蛋白组,有11个蛋白质的表达有量的差异,3个降低,8个增加。鉴定出的11中,5个是肌球蛋白轻链的异质体,至少有一种与心肌肥大有关。研究继发心肌疾病鉴定了150个的蛋白质,建立数据库,用于与继发心肌病人的蛋白谱比较,25个有显著的表达差异。
3.2 微生物的蛋白组学
许多与细菌和酵母基因与基因组相联系的工作在进行。1983年来,E.Coli 已有1600个蛋白斑的2D-胶数据库。有的被鉴定了,还有有关它们在不同条件下表达类型的信息。4000个基因中的350个与大约400个蛋白斑相吻合。
在病原微生物上也有类似的工作,人类肠道致病菌Salmonella typhimuruium 的外壳蛋白中鉴定了53种,并且对N-端进行了测序,其中20%从序列看似新的,对这个病原菌的蛋白组学研究将推动我们找到新的与其毒性有关的蛋白。
有20种Helicobacter pylori 的蛋白被鉴定出与感染后的免疫反应有联系,由于其高反应性,有可能进一步制备其中某蛋白的疫苗,并利用蛋白组学的各种技术鉴定出这个蛋白及其对应H. pylori 基因组的开放阅读框架。
在研究肺炎链球菌对红霉素的抗性时,比较敏感和抗性菌株的蛋白组2D-胶显示,一个Mw38500,pI6.27的蛋白在抗性菌株中表达,而在敏感株中不表达。肽谱表明它是3-磷酸甘油醛脱氢酶。这是一个红霉素抗性M表型的菌株,其抗性与一个活性的胞内红霉素排除机制相联系。具有另外抗性机制的菌株( MLS型),通过使核糖体RNA甲基化,阻断红霉素与核糖体的结合,表达的蛋白组与敏感型没有不同。
酵母菌为真核细胞研究提供了一个整合基因组学和蛋白质组学的最简单的模型。150种酵母蛋白经2D-胶分离,质谱鉴定,30多种是新的,可以与此前还不清楚的酵母基因组中的阅读框架对应起来。从有关的研究正在建立一套方法,稍做改造就可用于研究其他复杂的真核系统。其蛋白组数据库的建立正在取得进展,并着重2D-胶的定量研究。新近的研究得到了蛋白质的丰度,mRNA的丰度,鉴定的蛋白斑的密码偏爱性方面存在相关性的结果,说明将蛋白组学和基因组学整合的前景鼓舞人心。
3.3 蛋白质相互作用研究
应用蛋白质组学的分析技术揭示蛋白质相互作用有广阔的前景。首先以分子的亲和性为基础纯化多蛋白的复合体,这可以通过利用GST(Glutathione-S-transferase)融合蛋白、抗体、肽、核酸或与细胞特异位点结合的小分子来达到。多蛋白复合体与连接到一个固相载体上的配体结合,在洗脱除去非特异的结合蛋白之后,多蛋白复合体洗脱下来,接着进行2D-凝胶电泳和质谱分析,复合体中的各个蛋白组分被鉴定出来。例如,利用RNA作为结合的配体纯化人的剪切体,蛋白组分析得到19个新的蛋白因子,大多数与EST数据库对应,对有的还作了进一步的克隆和分析。其中一个,S14 利用其与GST融合蛋白的亲和色谱,又得到了一组剪切体蛋白。这样的研究由于不设前提,因此常有意外的发现。有人研究鼠大脑Profilin Ⅰ和Ⅱ的结合蛋白时,发现了两套蛋白。一套由调节细胞骨架的信号分子组成,另一套涉及胞吞过程,表明在细胞的信号转导途径与涉及Profilin的微丝装配之间还存在联系。不久,获得一个蛋白基因的全长cDNA克隆已非难事,因此大规模的研究蛋白质相互作用将成为可能。
3.4 研究细胞信号转导
若干受体介导的细胞信号途径引起一大批底物蛋白的磷酸化修饰。为了鉴定这些底物,先将由生长因子作用的和未作用的细胞样品做2D-电泳分离。可利用32P标记或特殊的识别修饰蛋白的抗体做Western blot,可以检测出我们感兴趣的蛋白,然后用质谱进一步鉴定。现在有人首先用抗磷酰酪氨酸的抗体免疫沉淀修饰了的蛋白,使它门得到浓集,然后做1D-电泳,再对蛋白带做质谱鉴定。这方面的工作有表皮生长因子和血小板源生长因子等。
3.5 乳腺的合成与分泌机制
乳腺上皮细胞合成和分泌脂肪是一个高度定向的过程,有若干个阶段组成。甘油三酯在内质网合成,合并成微脂滴,再互相融合成胞浆脂滴,向上皮细胞的顶膜迁移,最后被质膜的脂双层包裹形成脂肪球分泌到腺胞腔中。一般认为,脂肪球膜的来源只与质膜有关。但对脂肪球膜和胞浆脂滴的蛋白组学研究表明,内质网不仅是合成脂肪的场所,而且与脂肪球膜的组成有关,从所鉴定出的蛋白质提示了脂肪球形成多阶段的机制,还给出了一些“报告蛋白”,有的是内质网所特异的,有的是细胞骨架蛋白,由此可以跟踪研究乳中成分的合成和分泌途径。
4 蛋白组学目前存在的问题
差异显示(Differential display)是最常用的平行比较的研究方法。DNA微阵列和蛋白质组学是互补的技术,当用于同一样品时,在转录水平和蛋白质表达水平上的可比较性如何令人关注,而迄今为止的研究还有限。Andeson和Seilhamer等在人肝脏进行药物研究时,发现mRNA与蛋白质的丰度之间没有好的相关性,比较19个基因产物,mRNA与蛋白质丰度之间相关系数为0.48。但有人做膀胱癌细胞的微阵列和蛋白组比较时,找到有40个分辨好并且丰度高的蛋白质可比较,大多数情况下有较好的相关性,少数不一致,其原因可能与mRNA的稳定性、转录后加工、翻译后修饰、蛋白质聚焦、降解以及用于分析蛋白质表达水平的方法有关。因此,比较两种方法时要考虑到各种因素的影响。有时会给研究人员一种印象,与蛋白质相比,似乎mRNA的丰度变化更大,应考虑到,2D-胶上得到的主要是丰度大的蛋白质,对变化大的mRNA可能主要与低丰度的蛋白质有关。
2D-胶电泳是最常用的蛋白质分析方法之一,但戊二醛固定的组织细胞不能用于2D-电泳和质谱分析,疏水的蛋白,低丰度的蛋白难分析,丰度大的,如β-actin又容易掩盖其他蛋白。2D-电泳胶上1/4的蛋白是修饰过的,还可以分离出翻译后的,修饰前的蛋白前体,因此,一块胶上会有同一蛋白的多个斑点,但技术的进步会逐渐解决这些问题。
(参考文献略)