后基因组时代:蛋白组学简史

阅读量 :1676

2022年9月,JAMA 发表题为 “After the Genome-A Brief History of Proteomics” 的报道,简述了蛋白组学的发展史,让我们对蛋白组学的过去、现在和未来发展趋势有一个更清晰的认识。

图1. 文章标题

当研究人员为人类基因组测序的成功而欢欣鼓舞时,一个新兴的前沿方向悄然出现:蛋白质组学。蛋白组学的目的是识别和研究人体或其他生物体组织/细胞样本中的一整套蛋白质的表达。与基因组最大的不同在于蛋白质组可以揭示蛋白表达的时空变化,从而描述生命体当前的健康状况,而不仅仅是基因检测预测的疾病风险。

美国国立卫生研究院蛋白质组学科学兴趣小组的共同主席 Aleksandra Nita Lazar 博士在接受 JAMA 采访时说“蛋白质组学的复杂性是蛋白组学研究的一个重大挑战”。这就是为什么要花这么长时间才能获得每个生命体的完整蛋白质组,因为蛋白质表达随机体内外部环境的变化而变化。

与此同时,蛋白质组学在医学中的潜力正在显现,越来越多的研究显示某些蛋白质和蛋白质组图谱与疾病有关。如 PLOS Digital Health 最近的一项研究探讨了需要重症监护的新冠肺炎患者的蛋白质组预测因子。

图2. 蛋白组学进行重症监护的新冠肺炎患者的蛋白质组预测因子筛选

图3. 血浆蛋白质组分析确定新冠肺炎病例的严重程度

Scientific Reports 和 eBioMedicine 探讨了血浆蛋白质组分析如何确定新冠肺炎病例的严重程度。

目前,研究人员已经建立了人类蛋白质组的图谱库:人体内表达的整套蛋白质组。由于每种细胞类型都有自己独特的蛋白质组以及蛋白质存在的不同形态,所以人类蛋白质组由不同的亚蛋白质组共同组成,另外还有蛋白质存在形式(proteoforms),共同组成一个蛋白质组,这些蛋白质组是由基因组产生的蛋白质的变体或存在形式(forms)。

美国西北大学蛋白质组学和生物化学研究所所长 Neil Kelleher 博士在接受 JAMA采访时说:“同一个基因可以产生具有细微差异的多种蛋白质。例如,在肝脏、大脑、肾脏或血液和骨髓中的造血系统中表达的人类基因,却创造了大量不同的在以前蛋白组数据中没出现过的蛋白质存在形式(proteoforms)。”

现在,研究人员旨在建立一组人类参考蛋白质存在形式(proteoforms)的图谱,并希望完成整个人类蛋白质存在形式(proteoforms)的图谱绘制。

蛋白组学的开端

1975年,研究人员使用二维(2D)凝胶电泳技术绘制了小鼠、豚鼠和大肠杆菌蛋白质的图谱,并按电荷和大小分离蛋白质,是发表的关于蛋白质组学的最早研究。2D凝胶电泳技术是一种用于分离、分级和分析从生物样品中提取的蛋白质的技术,有助于实现蛋白质组学研究。

20世纪90年代和21世纪初,人们在蛋白质和基因组学领域取得了进一步进展,第一批微生物基因组测序完成并为人类基因组计划奠定了基础。到了世纪之交,蛋白质分析不再依赖于2D凝胶,而质谱技术的进步允许分析气相中的离子化蛋白质。研究人员可以通过将蛋白质片段化并利用质谱技术实现更好的鉴定。同时超越以往只能对单个蛋白质进行鉴定的局限,实现对复杂的蛋白质混合物进行鉴定。不过,当时词典中还没有用来描述蛋白质研究的术语。

决定性时刻

虽然关于蛋白质组学的最初研究是在50年前发表的,但包括 Marc Wilkins 博士(目前为澳大利亚悉尼新南威尔士大学(UNSW)的系统生物学教授)在内的一组研究人员直到1994年才命名了”proteome“(蛋白质组)一词。Marc Wilkins 当时作为博士研究生在意大利参加2D电泳的会议,发表了一篇关于蛋白质鉴定技术的合著论文,并提出了这个新的术语。

Marc Wilkins 在接受 JAMA 采访时回忆道:“虽然当时可以描述基因组中的所有基因,但没有办法对蛋白质做同样的事情。” 他的解决方案是:“很明显,蛋白质‘protein’与‘-ome’结合在一起,因为‘-ome’已经被用于基因组 ‘genome’ 和生物群系 ‘biome’ 。” 因此,提出了蛋白质组 proteome 这个词。

1995年,Marc Wilkins 在 Electrophoresis 杂志上发表了第一篇提到蛋白质组 ‘proteome’ 的文章。他和他的同事写道“蛋白质组(proteome)是指基因组的所有蛋白质组合”。Wilkins 在 Biotechnology and Genetic Engineering Reviews 合著的另一篇文章进一步定义了该术语:“作为‘基因组计划’概念的延申,‘蛋白质组计划’是旨在识别和表征细胞或组织中存在的蛋白质并定义其表达模式的研究。”

时隔20年,Kelleher 和他的同事 Lloyd Smith 博士,威斯康辛大学麦迪逊分校的化学教授,又提出 “proteoform” 一词“指单个基因的蛋白质产物可以在其中找到的所有不同分子形式,包括基因变异、选择性剪接RNA转录和翻译后修饰引起的变化。”

图3. Marc Wilkins博士

重大事件

通过使用不同方法开展的多个项目共同推进完成人类蛋白质组图谱。人类蛋白质组组织(HUPO)的人类蛋白质组项目(HPP)就是其中之一。截至2022年3月,HPP 已发现93.2%的人类蛋白质组,鉴定了 18,407 种蛋白质,人类基因组编码蛋白质估计共有 19,750 个。

没有正式参与 HPP 的 HUPO 理事会成员 Wilkins 说:“我们可以从基因组中预测人类蛋白质组中应该包含的蛋白质数量是一个好消息。” 而计算蛋白质存在形式(proteoforms)是一项更大的工作,因为蛋白质存在形式(proteoforms)比蛋白质多得多。截止2022年8月,人类蛋白质存在形式(proteoforms)项目已经确定了共有 61,770 种,但这还远没有达到蛋白质存在形式(proteoforms)的总数。人类蛋白质形式项目带头人和蛋白质组学联合会的董事会主席 Kelleher 说到:“从亚洲的角度来看,我们所讨论的是定义大约5000万到1亿种独特的蛋白质存在形式(proteoforms)”。

 

未来发展

过去的工作给我们提供了一些可用的蛋白质数据库。人类蛋白质图谱(HPA)是一个蛋白质分类的开放存取数据库。UniProt 和 neXtProt 平台还发布了关于蛋白质的信息,同时会持续跟踪仍需要进一步研究蛋白质,例如功能未知的蛋白质。

开源人工智能系统(如AlphaFold)预测了地球上存在的超过2亿种的蛋白质结构。当研究人员输入一个蛋白质序列时,AlphaFold 会输出一个预测的结构。这一点特别重要,因为蛋白质的结构会影响其功能。美国国家变态反应和传染病研究所国家细胞网络蛋白质组单元的高级研究员、HUPO 生物与疾病驱动的人类蛋白质组项目的执行委员会成员 Nita Lazar 说到:”AlphaFold 非常有用……我们也在使用它,非常具有互动性和协作性。”

蛋白质组分析也被用于研究其他疾病。错误折叠的蛋白质会导致蛋白质病(proteinopathies),例如阿尔茨海默病和帕金森病。一些研究已经揭示了阿尔茨海默病患者大脑中的蛋白质组变化。

应用蛋白质组学的另一个领域是癌症研究:2011年,美国国家癌症研究所成立了临床蛋白质组学肿瘤分析联盟,以通过蛋白质基因组学(proteogenomics)更好地了解癌症,这是一种整合蛋白质组学和基因组学的方法。德克萨斯大学安德森癌症中心也有一个癌症蛋白质组学研究平台,希望它能推进旨在提高癌症患者生存率的登月计划。

正如 Wilkins 所说,“从事蛋白质组学研究的每个人都站在彼此的肩膀上。值得一提的是,有这么多不同方法的人聚集在一起,试图共同实现这一切。” 我们期待蛋白质组学的发展将越来越蓬勃。

2022年9月,JAMA 发表题为 “After the Genome-A Brief History of Proteomics” 的报道,简述了蛋白组学的发展史,让我们对蛋白组学的过去、现在和未来发展趋势有一个更清晰的认识。

图1. 文章标题

当研究人员为人类基因组测序的成功而欢欣鼓舞时,一个新兴的前沿方向悄然出现:蛋白质组学。蛋白组学的目的是识别和研究人体或其他生物体组织/细胞样本中的一整套蛋白质的表达。与基因组最大的不同在于蛋白质组可以揭示蛋白表达的时空变化,从而描述生命体当前的健康状况,而不仅仅是基因检测预测的疾病风险。

美国国立卫生研究院蛋白质组学科学兴趣小组的共同主席 Aleksandra Nita Lazar 博士在接受 JAMA 采访时说“蛋白质组学的复杂性是蛋白组学研究的一个重大挑战”。这就是为什么要花这么长时间才能获得每个生命体的完整蛋白质组,因为蛋白质表达随机体内外部环境的变化而变化。

与此同时,蛋白质组学在医学中的潜力正在显现,越来越多的研究显示某些蛋白质和蛋白质组图谱与疾病有关。如 PLOS Digital Health 最近的一项研究探讨了需要重症监护的新冠肺炎患者的蛋白质组预测因子。

图2. 蛋白组学进行重症监护的新冠肺炎患者的蛋白质组预测因子筛选

图3. 血浆蛋白质组分析确定新冠肺炎病例的严重程度

Scientific Reports 和 eBioMedicine 探讨了血浆蛋白质组分析如何确定新冠肺炎病例的严重程度。

目前,研究人员已经建立了人类蛋白质组的图谱库:人体内表达的整套蛋白质组。由于每种细胞类型都有自己独特的蛋白质组以及蛋白质存在的不同形态,所以人类蛋白质组由不同的亚蛋白质组共同组成,另外还有蛋白质存在形式(proteoforms),共同组成一个蛋白质组,这些蛋白质组是由基因组产生的蛋白质的变体或存在形式(forms)。

美国西北大学蛋白质组学和生物化学研究所所长 Neil Kelleher 博士在接受 JAMA采访时说:“同一个基因可以产生具有细微差异的多种蛋白质。例如,在肝脏、大脑、肾脏或血液和骨髓中的造血系统中表达的人类基因,却创造了大量不同的在以前蛋白组数据中没出现过的蛋白质存在形式(proteoforms)。”

现在,研究人员旨在建立一组人类参考蛋白质存在形式(proteoforms)的图谱,并希望完成整个人类蛋白质存在形式(proteoforms)的图谱绘制。

蛋白组学的开端

1975年,研究人员使用二维(2D)凝胶电泳技术绘制了小鼠、豚鼠和大肠杆菌蛋白质的图谱,并按电荷和大小分离蛋白质,是发表的关于蛋白质组学的最早研究。2D凝胶电泳技术是一种用于分离、分级和分析从生物样品中提取的蛋白质的技术,有助于实现蛋白质组学研究。

20世纪90年代和21世纪初,人们在蛋白质和基因组学领域取得了进一步进展,第一批微生物基因组测序完成并为人类基因组计划奠定了基础。到了世纪之交,蛋白质分析不再依赖于2D凝胶,而质谱技术的进步允许分析气相中的离子化蛋白质。研究人员可以通过将蛋白质片段化并利用质谱技术实现更好的鉴定。同时超越以往只能对单个蛋白质进行鉴定的局限,实现对复杂的蛋白质混合物进行鉴定。不过,当时词典中还没有用来描述蛋白质研究的术语。

决定性时刻

虽然关于蛋白质组学的最初研究是在50年前发表的,但包括 Marc Wilkins 博士(目前为澳大利亚悉尼新南威尔士大学(UNSW)的系统生物学教授)在内的一组研究人员直到1994年才命名了”proteome“(蛋白质组)一词。Marc Wilkins 当时作为博士研究生在意大利参加2D电泳的会议,发表了一篇关于蛋白质鉴定技术的合著论文,并提出了这个新的术语。

Marc Wilkins 在接受 JAMA 采访时回忆道:“虽然当时可以描述基因组中的所有基因,但没有办法对蛋白质做同样的事情。” 他的解决方案是:“很明显,蛋白质‘protein’与‘-ome’结合在一起,因为‘-ome’已经被用于基因组 ‘genome’ 和生物群系 ‘biome’ 。” 因此,提出了蛋白质组 proteome 这个词。

1995年,Marc Wilkins 在 Electrophoresis 杂志上发表了第一篇提到蛋白质组 ‘proteome’ 的文章。他和他的同事写道“蛋白质组(proteome)是指基因组的所有蛋白质组合”。Wilkins 在 Biotechnology and Genetic Engineering Reviews 合著的另一篇文章进一步定义了该术语:“作为‘基因组计划’概念的延申,‘蛋白质组计划’是旨在识别和表征细胞或组织中存在的蛋白质并定义其表达模式的研究。”

时隔20年,Kelleher 和他的同事 Lloyd Smith 博士,威斯康辛大学麦迪逊分校的化学教授,又提出 “proteoform” 一词“指单个基因的蛋白质产物可以在其中找到的所有不同分子形式,包括基因变异、选择性剪接RNA转录和翻译后修饰引起的变化。”

图4. Marc Wilkins博士

重大事件

通过使用不同方法开展的多个项目共同推进完成人类蛋白质组图谱。人类蛋白质组组织(HUPO)的人类蛋白质组项目(HPP)就是其中之一。截至2022年3月,HPP 已发现93.2%的人类蛋白质组,鉴定了 18,407 种蛋白质,人类基因组编码蛋白质估计共有 19,750 个。

没有正式参与 HPP 的 HUPO 理事会成员 Wilkins 说:“我们可以从基因组中预测人类蛋白质组中应该包含的蛋白质数量是一个好消息。” 而计算蛋白质存在形式(proteoforms)是一项更大的工作,因为蛋白质存在形式(proteoforms)比蛋白质多得多。截止2022年8月,人类蛋白质存在形式(proteoforms)项目已经确定了共有 61,770 种,但这还远没有达到蛋白质存在形式(proteoforms)的总数。人类蛋白质形式项目带头人和蛋白质组学联合会的董事会主席 Kelleher 说到:“从亚洲的角度来看,我们所讨论的是定义大约5000万到1亿种独特的蛋白质存在形式(proteoforms)”。

 

未来发展

过去的工作给我们提供了一些可用的蛋白质数据库。人类蛋白质图谱(HPA)是一个蛋白质分类的开放存取数据库。UniProt 和 neXtProt 平台还发布了关于蛋白质的信息,同时会持续跟踪仍需要进一步研究蛋白质,例如功能未知的蛋白质。

开源人工智能系统(如AlphaFold)预测了地球上存在的超过2亿种的蛋白质结构。当研究人员输入一个蛋白质序列时,AlphaFold 会输出一个预测的结构。这一点特别重要,因为蛋白质的结构会影响其功能。美国国家变态反应和传染病研究所国家细胞网络蛋白质组单元的高级研究员、HUPO 生物与疾病驱动的人类蛋白质组项目的执行委员会成员 Nita Lazar 说到:”AlphaFold 非常有用……我们也在使用它,非常具有互动性和协作性。”

蛋白质组分析也被用于研究其他疾病。错误折叠的蛋白质会导致蛋白质病(proteinopathies),例如阿尔茨海默病和帕金森病。一些研究已经揭示了阿尔茨海默病患者大脑中的蛋白质组变化。

应用蛋白质组学的另一个领域是癌症研究:2011年,美国国家癌症研究所成立了临床蛋白质组学肿瘤分析联盟,以通过蛋白质基因组学(proteogenomics)更好地了解癌症,这是一种整合蛋白质组学和基因组学的方法。德克萨斯大学安德森癌症中心也有一个癌症蛋白质组学研究平台,希望它能推进旨在提高癌症患者生存率的登月计划。

正如 Wilkins 所说,“从事蛋白质组学研究的每个人都站在彼此的肩膀上。值得一提的是,有这么多不同方法的人聚集在一起,试图共同实现这一切。”

我们期待蛋白质组学的发展将越来越蓬勃。

问询(中文)

公众号