Scientists from 8 Countries Co-authored an Report Summarizing the Progress of Human Proteome Research in 2022

View :4393

自2010年人类蛋白质组项目(HPP)启动以来, 在过去的22年里,蛋白质组学经历了翻天覆地的变化。从大费周章才能清点一个样品中的近千个蛋白质,到使用高分辨质谱和AI可以轻松对数千个样品的逾万个蛋白质进行定量分析,科学家们已经不再满足于对蛋白质的鉴定和定量。

What's next? 
每一个蛋白质都是有功能的存在。生命科学的研究和应用,很大程度上基于对蛋白质以及相关生物分子的功能的不断刷新认知。但是每一个蛋白质功能的认识,都需要大费周章。

AI赋能的蛋白质组学能不能带来颠覆性的改变?且看2023年年度报告将会如何书写。

——欧米锐评人 青石

目前,HUPO人类蛋白质组计划在Journal of Proteome Research上在线发表了其在2022年的研究报告,题目为 “The 2022 Report on the Human Proteome from the HUPO Human Proteome Project”。

2022年人类蛋白质组计划(Human Proteome Project,HPP)研究显示,在人类基因组编码的19750种预测蛋白质中,已有效检测到18407种neXtProt PE1(neXtProt Protein existence 1)蛋白质的表达。

自2021年以来,HPP重新分析了来自世界各地的数据又进一步确定了50种能够有效检测的蛋白质。与之相反,neXtProt PE2、PE3 和PE4缺失蛋白质的数量从1421种减少到1343种,减少了78种。这一结果表明了全染色体水平人类蛋白质组的研究进展以及相关重要的蛋白质重新分类情况。

与此同时,蛋白质组学在生物学和临床研究中也有重大发现,并积极与其他多组学平台整合。文中阐述了以染色体为中心的 HPP、生物学和疾病驱动的 HPP 以及 HPP 资源支柱的科研进展,比较了质谱、 Olink 和 Somalogic 平台的特征,关注了核糖体分析中小型开放阅读框出现的翻译产物,讨论了首次启动的HPP Grand Challenge Project— “每个蛋白质都有功能注释” 项目。

原文链接:
https://doi.org/10.1021/acs.jproteome.2c00498

人类蛋白质组的研究进展

自2010年以来,人类蛋白质组计划(HPP)是全球人类蛋白质组组织(The global Human Proteome Organization, HUPO)的重大项目,共有2个目标:(1)主要但不完全是通过质谱法,有效地鉴别全部种类的蛋白质;(2)使蛋白质组学成为人类健康和疾病多组学研究的重要组成部分。
通过国际合作、数据共享、数据集的标准化再分析和质量保证指南,HPP联盟促进了在全球建立和利用蛋白质组学知识方面的发展。HPP的染色体和线粒体研究团队分为25个研究小组,生物和疾病类团队包含19个研究小组,以及基于抗体的蛋白质定位、质谱、知识库和病理学的4个资源支柱。该工作受到了HUPO蛋白质组标准倡议(HUPO-PSI)在数据格式和标准开发方面的支持,以及PRIDE、PeptideAtlas 和其他数据存储库的长期支持。
为了便于组织整理,人类蛋白质组数据库 neXtProt 以染色体特异性方式管理和记录被识别或预测到的蛋白质。
Table 1展示了具有可信蛋白质水平证据(Protein existence 1, PE1)蛋白质验证的年度进展:从2012-02的13975个蛋白质到2022-02的neXtProt 发布的18407个PE1蛋白质。总数是由基因预测的19750个蛋白质PE1, 2, 3, 4的93.2%。
这些蛋白质主要是由编码基因翻译得到的,但因为包括序列变异、剪接变体和翻译后修饰的影响,蛋白质种类的总数是该数字的很多倍。表1还展示了由人类标本(PE2)转录本的检测水平、其他物种(PE3)的同源蛋白表达或预测转译的基因模型(PE4)组成的 “缺失蛋白” PE2、3、4的减少情况,从2012年的5511减少到2022年的1343,在过去的一年减少了78个。现在这些蛋白仅占PE1, 2, 3, 4总共19750个预测人类蛋白的6.8%。图1表明了过去一年复杂的动态变化情况。

表1 2012-02年至2022-02年neXtProt Protein Existence已验证的蛋白质数量

图1 2021-2022年预测蛋白PE1、PE2、PE3、PE4、和PE5数量变化示意图

基于MS鉴定到的PE1数据,neXtProt 结合了来自PeptideAtlas和MassIVE(Mass Spectrometry Interactive Virtual Environment, MassIVE)的肽鉴定图谱,且满足蛋白质验证指南(基于HPP质谱数据解析指南v3.0至少两个特异性肽段的映射,9 个或更多氨基酸的非嵌套肽,覆盖至少18个氨基酸)。在1343个PE2, 3, 4缺失的蛋白质中,有310个MS数据不满足指南。

由图2可知,18407种PE1蛋白质中有17539 种基于质谱数据结果鉴定。其中17174个蛋白质数据来自对PeptideAtlas原始数据的再次整理,17033个来自MassIVE,两者交集共16668种蛋白质在两个库中均符合指南要求。肽类的数据必须至少满足一个数据库的验证指南要求;两个数据库中的部分数据存在不能互相验证的情况。

在868个非MS-based PE1蛋白质中,47个主要基于Edman降解N端蛋白测序,18个基于蛋白质数据库中天然蛋白(非重组蛋白)的3D结构,453个基于蛋白-蛋白相互作用,31个基于抗体研究,87个基于翻译后修饰和蛋白水解处理,69个基于基因突变,163个来自生化研究。许多蛋白质数据来自多种类型研究,如图3所示,其中有些MS数据不足以满足HPP MS数据解析指南v3.0。

图2 2022年人类蛋白质组中蛋白质的状态

图3 868种不符合PeptideAtlas和MassIVE HPP指南的PE1蛋白

2020-2021年期间,基于之前的蛋白质-蛋白质相互作用提升到PE1的112个条目在2021年至2022年期间有部分被降级,使PE1的净增加减少到50个条目。2016年以来的补充描述如图4所示。

从表1可知,随着有效地识别PE2, 3, 4缺失蛋白方面继续取得显著进展,PE1数量持续增加,同时PE2, 3, 4的数量减少(现在只占PE1,2,3,4总蛋白质的6.8%)。图5显示了在2022年增加的255个蛋白中PeptideAtlas贡献度排名前8的新数据集的160个蛋白质(表1),详见附表S2.

按照目前的鉴定速度来看,至2025年将会得到19250个PE1蛋白质。然而,仍然存在一些难以检测鉴定的蛋白质:其中包括对多达 800 个预测的PE2, 3, 4 蛋白质(基于HPA、GTEx、FAN-TOM5);部分溶解度不好的膜蛋白;仅在未研究的组织或细胞类型中表达的蛋白质;缺少胰蛋白酶消化位点(两个相距 9-40 个氨基酸)的蛋白质(尽管这些蛋白质可以用替代蛋白酶、缺失的切割或末端肽检测)。

图4 PE2, 3, 4蛋白质(灰色)和PE1蛋白质(蓝色+橙色)鉴定进展

图5 在Protein Atlas 2022-01和neXtProt 2022-02中生成10个或以上新PE1蛋白质的主要论文

以染色体为中心的HPP研究进展(THE CHROMOSOME-CENTRIC-HPP, C-HPP)

C-HPP由染色体和线粒体方向研究的25个团队组成,表2展示了目前通过染色体识别、预测的蛋白质。除了5条突出显示的染色体外,92%到98% 的预测蛋白质已被可靠地检测到;只有2-8%被归类为缺失蛋白质。相比之下,20%的chr Y、17%的chr 11和11%的7、14和21号染色体上编码的预测蛋白质仍然缺乏可信的检测。在可靠鉴定的PE1蛋白质中,3%(染色体Y)和11%(染色体X)之间缺乏功能注释(uPE1)。缺乏功能注释(直接或同源性)的uPE1蛋白质总数从2017年的1260个下降到2022年的1191个。
由于COVID-19大流行严重影响C-HPP团队交流活动。在2022年5月13日,C-HPP召开了第一次线上讨论会,与会科学家超过75人。会议介绍了蛋白质可以编码 “非编码” RNA,ZSWIMI和FAM210B的uPE1蛋白质的功能注释,蛋白质功能预测,应用于HPP的自上而下的蛋白质组学的研究进展,以及更新了neXtProt版本至2022-02。
在大流行期间,许多C-HPP实验室将注意力转向了COVID-19生物学和检测研究。6号染色体团队利用n-tail(底物末端胺同位素标记)方法生成了一个包含101个SARS-CoV-2 3糜凝胰蛋白酶样蛋白酶3CL pro的人类宿主细胞底物图谱;14号染色体团队在诱导多功能干细胞衍生的几个细胞系中寻找缺失的蛋白质,通过MS在符合HPP数据解释指南v3.0的原初细胞和滋养层干细胞确定了几个缺失蛋白(Missing Proteins, MPs)。人类蛋白质组研究团队向今年退休的Young-Ki Paik教授致敬,他建立并推动了HUPO的发展,在促进C-HPP发展中发挥了关键作用。

表2 neXtProt 2022-02染色体上蛋白质的预测情况

生物和疾病驱动的B/D-HPP研究进展(The Biology and Disease-driven Human Proteome Project,B/D-HPP)

生物学和疾病驱动的人类蛋白质组学项目(B/D-HPP)的重点是确定人类蛋白质的生物学功能,将与疾病相关的蛋白质应用于制定预防和治疗疾病的干预措施。B/D-HPP分支由19个生物学和临床相关领域的国际科学家团队组成(见https://hupo.org/B/DHPP)。这些团队开发并向更广泛的科学界传播最先进的蛋白质组学方法和软件,并在多学科生物学和临床研究领域发表了蛋白质组学发现。B/D-HPP团队在各种研究计划中越来越多的开展合作。本文中,重点介绍7个B/D-HPP团队取得的最新成果。

◊心血管疾病

这个项目研究了许多心脏病的前沿蛋白质组学和其他组学技术,以绘制动态心脏和血管蛋白质组学,阐明疾病机制,确定候选治疗靶点,并提供临床有用的诊断和风险预测。目前的重点在于单细胞和蛋白质形态的分辨。
Van Eyk团队分享了他们对蛋白质组学如何帮助阐明与COVID-19感染相关的标志蛋白在短期和长期诊断及预后方面的见解。Gundry团队开发了一种制备分离心肌细胞和全心脏组织匀浆的方法,用于自下而上的蛋白质组学分析。Lau团队利用多重组学比较了年轻和年老小鼠的骨骼肌和心肌,揭示了衰老如何重塑转录本和蛋白质水平上的基因表达的新细节。CV团队的成员与PediOME、风湿病、EyeOme和肝脏项目密切合作,生成了流行蛋白质列表。Lam进一步开发了PUBPULAR Web site (https://heart.shinyapps. io/publicular /)整合深入研究的蛋白质数据。

◊癌症

该项目的最终目标是绘制所有类型的人类癌症蛋白质组,以揭示肿瘤生物学,并推动改进癌症的诊断、治疗和管理。成员与病理基础支柱密切合作,以获取具有完整病史的临床样本,以便通过数据积累、共享和分析来识别癌症特异性蛋白质、蛋白结构或蛋白网络。
2021年发表的大规模临床癌症蛋白质基因组学研究包括胰腺导管腺癌、肺鳞状细胞癌、胶质母细胞瘤、头颈部鳞状细胞癌。郭天南团队发表了一篇关于高通量蛋白质组学和人工智能在癌症生物标志物发现方面的综述,总结了相关最新研究进展。Jimenez发表了一项AML的磷酸化蛋白质组学研究,重点是Flt3抑制剂的反应,并对同一样本采用(磷酸化)蛋白质组学的试验方案进行了基准测试。郭天南团队和Jimenez团队主导了具有代表性的22种癌症类型的1200+癌症泛癌症图谱(the cancer Proteome atlas, www.cancerproteome.org)深度分析研究,该合作计划邀请更多的癌症研究方面HPP团队进行协作。

◊糖蛋白质组学

人类糖蛋白组学计划(The Human Glycoproteomics Initiative, HGI)(@human-Glycoprot)旨在增加对糖基蛋白质广泛翻译后修饰的功能意义研究,通过高效的集成分析和信息学工具,以确定复杂生物系统中的位点、蛋白质、细胞和组织特异性糖型结构的异质性。
HGI是一个以项目/研究为中心的倡议。它召集了许多专家完成特定的糖蛋白组学分析方法和软件的独立研究,给予关注于糖基化在疾病中的作用的团队十分重要的帮助。
2021年,来自11个国家的22个团队55名参与者(许多HUPO成员)完成了HGI的第一个大型联合研究,即比较了来自LC-MS/MS数据的完整糖肽分析的糖信息学解决方案,这项工作发表在 《Nature Methods》上,并在Thaysen-Andersen(HUPO 2021,澳大利亚糖科学研讨会)、Kolarich(昆士兰 MS 研讨会,Lorne Proteomics)和 Packer(Microscale Separations and Bioanalysis,B/D HPP 网络研讨会)的国际会议上发表,在Dagstuhl计算蛋白质组学研讨会上,帮助社区创建解决人类健康和疾病中未探索的以糖生物学为中心的基础和应用研究问题所需的工具箱。

◊人类免疫肽组研究

人类免疫肽组计划(The Human Immuno-Peptidome Project, HiPP)的长期目标是利用质谱技术绘制HLA分子所呈现的全部肽类图谱,并为免疫学家、临床研究人员和其他研究者提供稳定分析。
在2021年,HiPP团队成员在《细胞》、《细胞报告》和《自然免疫学》上发表了三篇关于SARS-COV-2肽的权威文章,并在《自然通讯》、《临床调查杂志》和《免疫学与免疫学前沿》上发表了其他识别特异性免疫表位的标志性免疫学文章。HUPO-HiPP项目的支柱内容是方法和技术开发、标准化、有效的数据共享和教育。

◊食品和营养

食品和营养(The Food and Nutrition, FAN)项目使用蛋白质组学来描述与营养问题、食品安全和粮食安全相关的膳食蛋白质和蛋白质组变化。
Paola Roncada带领的食品与营养(FAN)团队概述了可用于研究食物过敏性蛋白质的先进方法。FAN团队还专注于人类肠道菌群研究,同时与其他旨在促进在饮食和营养研究中使用组学技术的科学家联盟有广泛合作。Subhra Chakraborty团队发现了2-Cys过氧化物还蛋白质在小麦耐热性中的作用。Figeys团队制定了一个优化的实验和生物信息学工作流程,用于定义人类肠道内微生物物种的赖氨酸酰化。

◊风湿性和自身免疫性疾病

风湿性和自身免疫性疾病(The overarching goal of the Rheumatic and Autoimmune Diseases, RAD)团队首要目标是发现和表征可用于风湿性疾病的预后或治疗的人类蛋白质,包括与年龄相关的病理、炎症性疾病和系统性自身免疫性疾病。
2021年基于科学家和临床医生之间的各个蛋白质研究团体合作,完成了公共-私人研究所关于骨关节炎临床研究的项目(APPROACH)。Blanco和Nilsson团队确定了膝关节骨性关节炎的预测因素;Blanco团队与Ruiz-Romero、Heeren团队合作,实施定向质谱法或成像质谱法,以发现骨关节炎患者滑液或膜内的标志性脂质体谱;RAD团队成员在欧洲风湿病学大会、骨关节炎大会上,以及通过组织的专题讨论会的形式报告了相关发现和建立的蛋白质特征,作为病人分层和治疗管理的生物标志物的协议。

◊传染性疾病

传染病(The Infectious Disease, ID)团队致力于解析包括人类病毒和细菌在内的微生物感染的生物学和致病机制。该团队成员开发了用于检测致病蛋白质、宿主蛋白相互作用,及由感染引起的蛋白质丰度或翻译后修饰变化的先进质谱方法。
Cristea团队开发了TRUSTED用于特异性检测三个疱疹病毒科亚家族的病毒蛋白,证明其可用于监测临床治疗剂和抗病毒或促病毒因素的效果。
Nita-Lazar团队将代谢组学与分泌组分析相结合,建立了细菌脂多糖(bacterial, lipopolysaccharide, LPS)耐受性、免疫代谢和巨噬细胞分泌组变化之间的联系。
Concha Gil团队确定了白色念珠菌对压力的蛋白质组变化,探索Prn1在氧化应激中的作用和未来抗真菌药物的可能靶点,并确定了白色念珠菌释放的胞外囊泡中与毒性有关的蛋白质的蛋白质组变化。
Malmstrom团队用定量和结构质谱法证明,化脓性链球菌,一种人类特异性的革兰氏阳性细菌,与人类血浆蛋白质建立血清型特异性的相互作用,这可能是在粘膜和系统感染期间抑制免疫反应的一种方式。
LaBaer团队整合了来自蛋白质芯片数据的信息,确定了一组存在于健康人中常见的没有性别偏好的自身抗体,从而为确定已知的疾病相关生物标志物中可能的假阳性数据提供了关键信息。
为了应对正在进行的大流行病,ID团队与其他B/D-HPP团队的成员(如上所述)一起,阐明SARS-CoV-2感染的生物学和病理学研究。Srivastava、Schmidt和Volker团队等建立了强大的质谱方法来检测SARS-CoV-2的蛋白质,定义了蛋白质-代谢物特征谱和临床样本之间的互相干扰,预测了临床结果并描述疫苗引起的并发症。
为了在2021年大流行病的条件下继续讨论沟通相关成果和新开发的方法,B/D-HPP举办了题为 “从蛋白质组学的角度看SARS-CoV-2” 的网络研讨会,来自不同B/D-HPP团队的成员从各自团队的具体科学角度介绍了他们在应对COVID-19大流行病方面的研究贡献。
(https://www.hupo.org/Webinars-and-Virtual-Presentations)

四个资源支柱的发展情况

4.1 知识库资源支柱研究进展

UniProtKB/Swiss-Prot管理员继续专注于提高人类蛋白质组序列质量和注释内容。这项工作包括重新整理那些被证明是不正确的序列,删除那些现在被认为没有表达的蛋白质条目,比如现在被认为是假基因的假定产物,以及创建新发现的蛋白质编码基因产物的记录。新的异构体会在实验数据验证后添加,或在证明有误后删除。
现在,约93%的UniProtKB/ Swiss-Prot序列与人类基因组翻译的相应Ensembl蛋白质序列相同;正在进行的工作主要是明确包括参考序列在内的其余7%的条目之间的差异。
同时,该研究的重点还在于确保与NCBI和EMBL-EBI(MANE)匹配注释的一致性。MANE是EMBL-EBI与NCBI合作创立的,目的是在人类基因和转录本注释方面进行融合,共同定义一套高价值的转录物和相应的蛋白质。通过专业管理员不断地将功能信息添加到UniProtKB/Swiss-Prot条目中,同时在基因本体注释项目中对相同的蛋白质进行注释,并添加到IMEx数据库的蛋白质相互作用数据中。
大规模的数据集,包括通过MS鉴定的肽,在网站上可视化并可通过API下载。neXtProt 自动执行 UniProtKB/Swiss-Prot 的管理决策,但是也会包括一些异常信息,后续的工作内容就是解决这些问题。

从 Ribo-seq Open Reading Frame (ORF) 序列翻译潜在多肽

2022年7月Jonathan Mudge(EMBL-EBI)领导、HPP参与的Ribo-seq ORFs标准化注释战略在《Nature Biotechnology》上发表。该小组的目标是为关于上游uORFs或小型smORFs(small Open Reading Frames,smORFs)的数据找到一个像GENCODE一样的 “home”,从而促进蛋白质潜在功能的广泛联合研究。
PeptideAtlas将以其基于Trans-Proteomic Pipeline的流程对公共人类数据集进行重新分析,来检索7264个ORF的翻译证据。如果没有可靠的实验结果表明这些多肽具有功能,那么该项目的目标将转变为以一种能够将它们作为一个单独类别进行识别和研究的方式对它们进行注释。
图1中可知,UniProtKB/Swiss-Prot最近纳入了三个新的uORFs,这些uORFs是在2021年期间根据潜在功能的文献证据添加到neXtProt中的。这种对短多肽的关注所提出的问题不是多肽是否具有生物活性(这是众所周知的),而在于是否应该将短于某个阈值长度的多肽与 “蛋白质” 区分开来,如果不采用HPP指南v3.0,应该采用什么标准进行区分。

4.2 抗体支柱/人类蛋白质图谱研究进展

HPP抗体资源支柱:基于人类蛋白质图谱(The Human Protein Atlas, HPA)项目,专注于利用空间蛋白质组学和基于抗体的成像绘制人类蛋白质组图。
在HPA的21.1版本中(发布日期为2022年5月31日),对数据库的结构和内容进行了重大更新,将数据分为10个主要部分,每个部分都侧重于人类蛋白质组和基因组的特定方面。HPA v21建立在Ensembl 103版基因组发布的基础上,对所有蛋白质编码基因进行注释,并为所有数据集引入了新的标准化方案。
在v20(2020年11月19日发布)中引入的单细胞类型部分,扩展到包括来自25种组织类型的单细胞转录组学数据,提供了人体单细胞类型表达的全身概况。该数据集用于比较基于抗体的蛋白质组学数据,使用免疫组化法研究不同平台的单细胞类型的表达。这也有利于进行更严格的抗体验证,这是抗体资源支柱的主要目标之一。
HPA的一个补充部分,即组织细胞类型部分,是在v21中添加的。在这部分,对公开的大量RNAseq数据进行去卷积和综合网络分析,以预测所有人类蛋白编码基因的细胞类型表达特异性。该研究可以明确组织内的每一种细胞类型中分别富集了哪些基因,并详细研究跨越几种组织表达的核心细胞类型。
2021年,主要更新的部分是大脑相关数据,重点关注不同脑区的表达谱;增加了内部生成的RNA-seq数据,来自>1300个人类大脑样本,涵盖了200个区域和细胞核。亚细胞部分提供了对蛋白质时空亚细胞分布的研究;对细胞周期依赖性基因的深入分析在v21中得到了扩展,包括另外129个具有细胞周期依赖性转录的基因。
血液蛋白部分主要的更新内容在人类血浆中检测到的蛋白质浓度估计:增加了850种蛋白质的血浆浓度。纵向血浆表达水平的数据增加了708种,基于Olink Explore平台的蛋白质数据人类分泌组增加了免疫球蛋白基因的新类别。
总的来说,现在预测的分泌蛋白质总数为2739个,其中被注释为在血液中分泌的蛋白质数量为784个。最新更新的内容涉及了脂肪组织。HPA的工作流程和抗体已被用于目前主流的研究工作中,包括与COVID-19大流行病相关的几个项目和先进成像技术的尝试中。

4.3 病理资源支柱研究进展

病理学支柱(Pathology Pillar, PP)在确认病理学必须在转化和提供蛋白质组学驱动的生物标志物发现和下一代诊断及治疗方面发挥重要作用。
本资源支柱旨在协调确定临床医学中未得到满足的关键需求,鼓励制定适合目的的验证性临床检测方法的准则和标准,促进对最佳检测方法的认识,并协调对临床样本及其相关数据生物资源的获取。
在NCI协调下,组建的临床蛋白质组学肿瘤分析联盟(The Clinical Proteomic Tumor Analysis Consortium, CPTAC)已经为总共14种常见或不常见的癌症(如胰腺、肺、急性髓系白血病、胶质母细胞瘤、头颈部)阐明了独特和强大的蛋白质基因组学景观。新一轮对另外10种肿瘤类型的特征分析将于2022年底开始(包括肝细胞癌、胆汁癌和胃癌)。
目前的CPTAC方法中,只对未经治疗的原发性癌症进行分析。要更好地了解癌症的转移过程以及靶向化疗和免疫疗法对蛋白质组学演变的影响,需要进行大规模的纵向研究。
其他与PP有关的文献包括:氧化还原信号通路在癌症中的作用、耐药性、以及肿瘤细胞可塑性在修改治疗反应中的新作用。Martens等人开发了一个恶性胸膜间皮瘤(Malignant Pleural Mesothelioma, MPM)的分子通路模型,这是一个可视化的、互动的蛋白质和已知与MPM有关的分子通路之间的相互作用和联系概览。另外,还有关于蛋白质组学、个性化医疗和癌症的评述,以及分离科学在蛋白质组学中的作用。
如图6所示确定重大的医疗需求和具体的疾病或应用,使蛋白质组学比传统的基于DNA和RNA的分子诊断法更有优势,这是病理学基础的一个重要目标。
去年的一些研究显示了新的蛋白质标志物可用于癌症的风险预测。由于目前没有强有力的预测标志物来指导治愈性手术后的高风险患者进行额外的辅助治疗,同时保护低风险患者免受有害的、导致身体衰弱的、昂贵的过度治疗的相关策略,因此这项研究对于早期癌症治疗十分重要。
人类黑色素瘤蛋白质组图谱专注于深入的组织病理学,加上蛋白质组特征,定义了黑色素瘤的分子病理学。一个跨越28种组织类型的949个人类细胞系的泛癌症蛋白质组图谱(https://cellmodelpassports.sanger.ac.uk)揭示了对未来临床研究具有重要意义的蛋白质调节原则。
同时,蛋白质组学对解析SARS-CoV-2和COVID-19,包括 “long COVID”,即持续咳嗽、疲劳、肌肉和关节疼痛、记忆力下降、脑雾或抑郁症,也做出了重大贡献。有几篇论文显示与人类自身免疫有惊人的关系;对人类肺部细胞的分析显示,在急性感染期间,大量COVID失调蛋白质是已知的人类自身抗原。

图6 基于蛋白质组学的结肠癌个性化结果风险预测

最后,HPP病理学的使命是通过会议和辅导,加强对全世界医生和医疗机构的教育和宣传,提高对蛋白质组学的认识并促进国际病理学和实验室医学学会与HUPO和HPP建立密切的合作联系,将这些举措推广到世界各地。

4.4 用于血液蛋白检测的互补组学技术

血液中蛋白质鉴定的亲和力测定法的不断发展,加速了这些技术在高通量血浆和血清蛋白质组学中的应用。最近对这些基于非质谱技术的血液蛋白质组学技术的评论描述了每种技术的优点和缺点,并强调需要对每种技术进行定量评估和比较以验证每种方法。

靶向检测发展中最突出的是近似延伸检测(Olink公司的PEA),其构造为成对的抗体,以定量聚合酶链反应(qPCR)或测序作为读数,或大量的改性慢速DNA适配体库(SomaLogic的SomaScan)。Olink提供了2940种(3K系统)独特的检测方法,SomaLogic提供了6377种(7K系统)针对人类血浆蛋白的检测方法。

目前,这些平台间目标蛋白质重叠度过高结合所有三个平台,有超过8000种蛋白质可以作为潜在检测血浆蛋白质的目标。

过去几年,有研究已经比较了不同的靶向检测方法及其检出的关联性。但是这些大规模的靶向测定只报告相对的定量值,且靶向蛋白质结合分子的方法不同,每个被测定的蛋白质的结合表位不同,以及检测方式不同,因此在测定之间的关联反应有相当大的困难。相关性差异很大,对不同平台的研究结果难以关联的解释。

这些差异使需要准确鉴定和定量的临床化学应用变得非常复杂。开发一项新的技术,需要很多实验证据验证其特异性和准确性。Somalogic公司评估了他们基于诱导剂的亲和试剂的特异性,虽然在这项实验中每种试剂的定量准确性还有待调查,但这组数据为确定这些新技术之一的核心试剂的特征提供了第一个证据。

利用标准化的96孔板靶向蛋白质组学测量的高通量分析,可以快速量化实验中和不同实验中检测到的分析物的差异。在SCALLOP内,拥有Olink数据的研究人员希望比较不同队列的结果,从而增加可搜索结果的总库。

目前,SCALLOP有超过70000个样本结果可供成员使用。另一个大型联盟是人类制药蛋白质组学项目(HPPP),最近完成了对英国生物库参与者的54306份血浆蛋白质组图谱的初步描述。使用Olink 1.5K panel(1463个独特的蛋白质)作为第一阶段的分析,并包括蛋白质定量性状位点(pQTL)图谱,确定了10248个初级遗传关联,其中85%是新发现的。数据确定了92%的顺式位点和29%的反式位点的独立二级关联,扩大了用于下游分析的遗传工具目录。

这项研究提供了血浆蛋白质组遗传结构的最新特征,利用群体规模的蛋白质组学为跨多个生物领域的反式pQTLs提供新的广泛结果。

这项大型研究用一种单一的技术确定了许多可操作的药理结果,如确定对配体-受体相互作用的遗传影响、通路扰动和新的药物靶点,PCSK9水平对脂质浓度和心脑血管疾病的遗传代理效应。

这些数据将Olink分析扩展到Olink 3K panel,并在较小的UKB受试者群中进行各种基于质谱的试验规模分析。将公共血浆蛋白质组知识库作为一种开放的蛋白质组学资源,将有助于阐明遗传发现背后的生物机制,并加速新型生物标志物和治疗方法的开发。为了使平台之间的定量反应相关化,在Price、Ruffieux这两个团队的系统研究中将质谱法与Olink检测的定量读数进行了比较。

基于质谱的方法并没有摆脱定量的困境,质谱中绝大多数的蛋白质检测和定量都来自于自下而上的方法,其中蛋白质被酶切成短肽,在质谱仪中被鉴定和定量,然后最后汇总成一个蛋白质水平的定量值。鉴于每个基因产物估计有100种不同的蛋白形式,肽信号的平均化不考虑翻译后修饰的贡献,可能会妨碍发现重要的生物差异。

在我们了解每个被鉴定的蛋白质的背景之前,任何技术所提供的每个蛋白质的定量值都需要用正交的方法来验证,以说明生物的多样性。随着技术的不断发展,需要利用每种技术的优势,并以跨平台的能力作为补充,以得出解释生物差异的结论。

HPP Grand Challenge Project:“每个蛋白质都有功能注释”

基于已有的研究进展和数据积累,在2020年HUPO年会期间,由Robert Moritz领导的HPP执行委员会宣布了HPP大挑战项目框架,并随后在HPP网站上发布了一份白皮书(www.hupo.org)。其目的是在一个开放的社区框架内促进我们对复杂生物过程的理解,个人和团体可以提出各种可资助的工作计划,为实现项目目标作出贡献。
其中第一个项目是HPP Grand Challenge Project ”每个蛋白质都有功能注释”。该项目将通过对细胞中特定蛋白质表达或敲除后蛋白质组的变化进行分析和建模,来判断任何蛋白质通常具有的多种功能。从本质上讲,通过扰乱细胞分子网络中的相关蛋白质,可以揭示出蛋白质的功能。该项目包括以下几个方面:
蛋白质的定量状态(表达水平、异构体、翻译后修饰、定位、相互作用)在网络和相互作用体的背景下,可被个体间的变化、特定的结合相互作用和蛋白质复合物的形成所扰乱,影响其功能相关性。
基因组学和蛋白质组学的结合可以明确蛋白质的功能并且获知蛋白质的相互作用,将其应用在临床疾病研究中可以获悉疾病的分子机制。临床蛋白质组学研究可以成为本项目的丰富数据来源。在以疾病为中心的临床队列设计中,由患者异质性产生的各种临床表征亚型在概念上等同于生物扰动实验。
从病理学的角度来阐释疾病的发生发展,如空间和时间、疾病分层、疾病干预后等方面相关蛋白质网络产生的变化,以及利用其他资源如Human Protein Atlas antibody resource和Target 2035 small molecules binder resource 来识别新的治疗靶点。
通过建立数据库和数据资源,用于收集、整理和传播蛋白质干预后其上下游的蛋白网络状态。
HPP Grand Challenge Project “每个蛋白质都有功能注释” 在HUPO 2021年大会、2022年Lorne澳大利亚蛋白质组学研讨会以及其他由HPP执委会成员举办的国内和国际会议上向蛋白质组学公众展示。HPP执行委员会内部已经宣布成立一个特别工作组,对新出现的提案提供意见和观点。
该工作组的目的不是对资助申请进行评估或排名,而是就项目的目标、里程碑、可交付成果以及与HPP大项目的其他组成部分的契合度向项目负责人提供建议和集体支持。第一批对发展这一重点项目表示出极大兴趣的国家是法国(负责人现任HPP主席Charles Pineau)和中国(负责人郭天南和贺福初)。
在法国,Pineau在几所大学以及法国国家生命科学与健康联盟(Aviesan)和法国国家研究机构(the French National Research Agency, ANR)介绍了该项目。会议同意法国研究团队可以在2022年10月的下一次年度提案征集中申请与HPP有关的资金。目前正在与德国研究基金会(Deutsche Forschungsgemeinschaft, DFG)组织类似的以国家为重点的展示战略,并将由其科学家推广到其他欧洲国家。
在中国,郭天南在杭州提出了西湖先导项目(Westlake Pilot Project):根据与乳腺癌的相关性,最初选择了50个代表性的蛋白质进行功能分析,明确其在HEK293T人类胚胎性肾脏细胞中的作用。这些蛋白质中的大多数都有已知的功能,可以建立一个训练模型,其中一些功能不明确的蛋白质将通过使用CRISPR-Cas9实验对每个蛋白质的蛋白质组扰动进行调查。这个试点项目将建立一个数据质量控制、存储、分析和可视化的工作流程,并作为中国的初步贡献,在HPP成员之间进行广泛的交流。
HPP Grand Challenges Projects 将作为一个协调点,将这些倡议联系起来,以完成解码每个人类蛋白质功能和实现精准医学的宏伟目标。

原文链接:https://doi.org/10.1021/acs.jproteome.2c00498

编译:王佳童

自2010年人类蛋白质组项目(HPP)启动以来, 在过去的22年里,蛋白质组学经历了翻天覆地的变化。从大费周章才能清点一个样品中的近千个蛋白质,到使用高分辨质谱和AI可以轻松对数千个样品的逾万个蛋白质进行定量分析,科学家们已经不再满足于对蛋白质的鉴定和定量。

What's next? 
每一个蛋白质都是有功能的存在。生命科学的研究和应用,很大程度上基于对蛋白质以及相关生物分子的功能的不断刷新认知。但是每一个蛋白质功能的认识,都需要大费周章。

AI赋能的蛋白质组学能不能带来颠覆性的改变?且看2023年年度报告将会如何书写。

——欧米锐评人 青石

目前,HUPO人类蛋白质组计划在Journal of Proteome Research上在线发表了其在2022年的研究报告,题目为 “The 2022 Report on the Human Proteome from the HUPO Human Proteome Project”。

2022年人类蛋白质组计划(Human Proteome Project,HPP)研究显示,在人类基因组编码的19750种预测蛋白质中,已有效检测到18407种neXtProt PE1(neXtProt Protein existence 1)蛋白质的表达。

自2021年以来,HPP重新分析了来自世界各地的数据又进一步确定了50种能够有效检测的蛋白质。与之相反,neXtProt PE2、PE3 和PE4缺失蛋白质的数量从1421种减少到1343种,减少了78种。这一结果表明了全染色体水平人类蛋白质组的研究进展以及相关重要的蛋白质重新分类情况。

与此同时,蛋白质组学在生物学和临床研究中也有重大发现,并积极与其他多组学平台整合。文中阐述了以染色体为中心的 HPP、生物学和疾病驱动的 HPP 以及 HPP 资源支柱的科研进展,比较了质谱、 Olink 和 Somalogic 平台的特征,关注了核糖体分析中小型开放阅读框出现的翻译产物,讨论了首次启动的HPP Grand Challenge Project— “每个蛋白质都有功能注释” 项目。

原文链接:
https://doi.org/10.1021/acs.jproteome.2c00498

人类蛋白质组的研究进展

自2010年以来,人类蛋白质组计划(HPP)是全球人类蛋白质组组织(The global Human Proteome Organization, HUPO)的重大项目,共有2个目标:(1)主要但不完全是通过质谱法,有效地鉴别全部种类的蛋白质;(2)使蛋白质组学成为人类健康和疾病多组学研究的重要组成部分。
通过国际合作、数据共享、数据集的标准化再分析和质量保证指南,HPP联盟促进了在全球建立和利用蛋白质组学知识方面的发展。HPP的染色体和线粒体研究团队分为25个研究小组,生物和疾病类团队包含19个研究小组,以及基于抗体的蛋白质定位、质谱、知识库和病理学的4个资源支柱。该工作受到了HUPO蛋白质组标准倡议(HUPO-PSI)在数据格式和标准开发方面的支持,以及PRIDE、PeptideAtlas 和其他数据存储库的长期支持。
为了便于组织整理,人类蛋白质组数据库 neXtProt 以染色体特异性方式管理和记录被识别或预测到的蛋白质。
Table 1展示了具有可信蛋白质水平证据(Protein existence 1, PE1)蛋白质验证的年度进展:从2012-02的13975个蛋白质到2022-02的neXtProt 发布的18407个PE1蛋白质。总数是由基因预测的19750个蛋白质PE1, 2, 3, 4的93.2%。
这些蛋白质主要是由编码基因翻译得到的,但因为包括序列变异、剪接变体和翻译后修饰的影响,蛋白质种类的总数是该数字的很多倍。表1还展示了由人类标本(PE2)转录本的检测水平、其他物种(PE3)的同源蛋白表达或预测转译的基因模型(PE4)组成的 “缺失蛋白” PE2、3、4的减少情况,从2012年的5511减少到2022年的1343,在过去的一年减少了78个。现在这些蛋白仅占PE1, 2, 3, 4总共19750个预测人类蛋白的6.8%。图1表明了过去一年复杂的动态变化情况。

表1 2012-02年至2022-02年neXtProt Protein Existence已验证的蛋白质数量

图1 2021-2022年预测蛋白PE1、PE2、PE3、PE4、和PE5数量变化示意图

基于MS鉴定到的PE1数据,neXtProt 结合了来自PeptideAtlas和MassIVE(Mass Spectrometry Interactive Virtual Environment, MassIVE)的肽鉴定图谱,且满足蛋白质验证指南(基于HPP质谱数据解析指南v3.0至少两个特异性肽段的映射,9 个或更多氨基酸的非嵌套肽,覆盖至少18个氨基酸)。在1343个PE2, 3, 4缺失的蛋白质中,有310个MS数据不满足指南。

由图2可知,18407种PE1蛋白质中有17539 种基于质谱数据结果鉴定。其中17174个蛋白质数据来自对PeptideAtlas原始数据的再次整理,17033个来自MassIVE,两者交集共16668种蛋白质在两个库中均符合指南要求。肽类的数据必须至少满足一个数据库的验证指南要求;两个数据库中的部分数据存在不能互相验证的情况。

在868个非MS-based PE1蛋白质中,47个主要基于Edman降解N端蛋白测序,18个基于蛋白质数据库中天然蛋白(非重组蛋白)的3D结构,453个基于蛋白-蛋白相互作用,31个基于抗体研究,87个基于翻译后修饰和蛋白水解处理,69个基于基因突变,163个来自生化研究。许多蛋白质数据来自多种类型研究,如图3所示,其中有些MS数据不足以满足HPP MS数据解析指南v3.0。

图2 2022年人类蛋白质组中蛋白质的状态

图3 868种不符合PeptideAtlas和MassIVE HPP指南的PE1蛋白

2020-2021年期间,基于之前的蛋白质-蛋白质相互作用提升到PE1的112个条目在2021年至2022年期间有部分被降级,使PE1的净增加减少到50个条目。2016年以来的补充描述如图4所示。

从表1可知,随着有效地识别PE2, 3, 4缺失蛋白方面继续取得显著进展,PE1数量持续增加,同时PE2, 3, 4的数量减少(现在只占PE1,2,3,4总蛋白质的6.8%)。图5显示了在2022年增加的255个蛋白中PeptideAtlas贡献度排名前8的新数据集的160个蛋白质(表1),详见附表S2.

按照目前的鉴定速度来看,至2025年将会得到19250个PE1蛋白质。然而,仍然存在一些难以检测鉴定的蛋白质:其中包括对多达 800 个预测的PE2, 3, 4 蛋白质(基于HPA、GTEx、FAN-TOM5);部分溶解度不好的膜蛋白;仅在未研究的组织或细胞类型中表达的蛋白质;缺少胰蛋白酶消化位点(两个相距 9-40 个氨基酸)的蛋白质(尽管这些蛋白质可以用替代蛋白酶、缺失的切割或末端肽检测)。

图4 PE2, 3, 4蛋白质(灰色)和PE1蛋白质(蓝色+橙色)鉴定进展

图5 在Protein Atlas 2022-01和neXtProt 2022-02中生成10个或以上新PE1蛋白质的主要论文

以染色体为中心的HPP研究进展(THE CHROMOSOME-CENTRIC-HPP, C-HPP)

C-HPP由染色体和线粒体方向研究的25个团队组成,表2展示了目前通过染色体识别、预测的蛋白质。除了5条突出显示的染色体外,92%到98% 的预测蛋白质已被可靠地检测到;只有2-8%被归类为缺失蛋白质。相比之下,20%的chr Y、17%的chr 11和11%的7、14和21号染色体上编码的预测蛋白质仍然缺乏可信的检测。在可靠鉴定的PE1蛋白质中,3%(染色体Y)和11%(染色体X)之间缺乏功能注释(uPE1)。缺乏功能注释(直接或同源性)的uPE1蛋白质总数从2017年的1260个下降到2022年的1191个。
由于COVID-19大流行严重影响C-HPP团队交流活动。在2022年5月13日,C-HPP召开了第一次线上讨论会,与会科学家超过75人。会议介绍了蛋白质可以编码 “非编码” RNA,ZSWIMI和FAM210B的uPE1蛋白质的功能注释,蛋白质功能预测,应用于HPP的自上而下的蛋白质组学的研究进展,以及更新了neXtProt版本至2022-02。
在大流行期间,许多C-HPP实验室将注意力转向了COVID-19生物学和检测研究。6号染色体团队利用n-tail(底物末端胺同位素标记)方法生成了一个包含101个SARS-CoV-2 3糜凝胰蛋白酶样蛋白酶3CL pro的人类宿主细胞底物图谱;14号染色体团队在诱导多功能干细胞衍生的几个细胞系中寻找缺失的蛋白质,通过MS在符合HPP数据解释指南v3.0的原初细胞和滋养层干细胞确定了几个缺失蛋白(Missing Proteins, MPs)。人类蛋白质组研究团队向今年退休的Young-Ki Paik教授致敬,他建立并推动了HUPO的发展,在促进C-HPP发展中发挥了关键作用。

表2 neXtProt 2022-02染色体上蛋白质的预测情况

生物和疾病驱动的B/D-HPP研究进展(The Biology and Disease-driven Human Proteome Project,B/D-HPP)

生物学和疾病驱动的人类蛋白质组学项目(B/D-HPP)的重点是确定人类蛋白质的生物学功能,将与疾病相关的蛋白质应用于制定预防和治疗疾病的干预措施。B/D-HPP分支由19个生物学和临床相关领域的国际科学家团队组成(见https://hupo.org/B/DHPP)。这些团队开发并向更广泛的科学界传播最先进的蛋白质组学方法和软件,并在多学科生物学和临床研究领域发表了蛋白质组学发现。B/D-HPP团队在各种研究计划中越来越多的开展合作。本文中,重点介绍7个B/D-HPP团队取得的最新成果。

◊心血管疾病

这个项目研究了许多心脏病的前沿蛋白质组学和其他组学技术,以绘制动态心脏和血管蛋白质组学,阐明疾病机制,确定候选治疗靶点,并提供临床有用的诊断和风险预测。目前的重点在于单细胞和蛋白质形态的分辨。
Van Eyk团队分享了他们对蛋白质组学如何帮助阐明与COVID-19感染相关的标志蛋白在短期和长期诊断及预后方面的见解。Gundry团队开发了一种制备分离心肌细胞和全心脏组织匀浆的方法,用于自下而上的蛋白质组学分析。Lau团队利用多重组学比较了年轻和年老小鼠的骨骼肌和心肌,揭示了衰老如何重塑转录本和蛋白质水平上的基因表达的新细节。CV团队的成员与PediOME、风湿病、EyeOme和肝脏项目密切合作,生成了流行蛋白质列表。Lam进一步开发了PUBPULAR Web site (https://heart.shinyapps. io/publicular /)整合深入研究的蛋白质数据。

◊癌症

该项目的最终目标是绘制所有类型的人类癌症蛋白质组,以揭示肿瘤生物学,并推动改进癌症的诊断、治疗和管理。成员与病理基础支柱密切合作,以获取具有完整病史的临床样本,以便通过数据积累、共享和分析来识别癌症特异性蛋白质、蛋白结构或蛋白网络。
2021年发表的大规模临床癌症蛋白质基因组学研究包括胰腺导管腺癌、肺鳞状细胞癌、胶质母细胞瘤、头颈部鳞状细胞癌。郭天南团队发表了一篇关于高通量蛋白质组学和人工智能在癌症生物标志物发现方面的综述,总结了相关最新研究进展。Jimenez发表了一项AML的磷酸化蛋白质组学研究,重点是Flt3抑制剂的反应,并对同一样本采用(磷酸化)蛋白质组学的试验方案进行了基准测试。郭天南团队和Jimenez团队主导了具有代表性的22种癌症类型的1200+癌症泛癌症图谱(the cancer Proteome atlas, www.cancerproteome.org)深度分析研究,该合作计划邀请更多的癌症研究方面HPP团队进行协作。

◊糖蛋白质组学

人类糖蛋白组学计划(The Human Glycoproteomics Initiative, HGI)(@human-Glycoprot)旨在增加对糖基蛋白质广泛翻译后修饰的功能意义研究,通过高效的集成分析和信息学工具,以确定复杂生物系统中的位点、蛋白质、细胞和组织特异性糖型结构的异质性。
HGI是一个以项目/研究为中心的倡议。它召集了许多专家完成特定的糖蛋白组学分析方法和软件的独立研究,给予关注于糖基化在疾病中的作用的团队十分重要的帮助。
2021年,来自11个国家的22个团队55名参与者(许多HUPO成员)完成了HGI的第一个大型联合研究,即比较了来自LC-MS/MS数据的完整糖肽分析的糖信息学解决方案,这项工作发表在 《Nature Methods》上,并在Thaysen-Andersen(HUPO 2021,澳大利亚糖科学研讨会)、Kolarich(昆士兰 MS 研讨会,Lorne Proteomics)和 Packer(Microscale Separations and Bioanalysis,B/D HPP 网络研讨会)的国际会议上发表,在Dagstuhl计算蛋白质组学研讨会上,帮助社区创建解决人类健康和疾病中未探索的以糖生物学为中心的基础和应用研究问题所需的工具箱。

◊人类免疫肽组研究

人类免疫肽组计划(The Human Immuno-Peptidome Project, HiPP)的长期目标是利用质谱技术绘制HLA分子所呈现的全部肽类图谱,并为免疫学家、临床研究人员和其他研究者提供稳定分析。
在2021年,HiPP团队成员在《细胞》、《细胞报告》和《自然免疫学》上发表了三篇关于SARS-COV-2肽的权威文章,并在《自然通讯》、《临床调查杂志》和《免疫学与免疫学前沿》上发表了其他识别特异性免疫表位的标志性免疫学文章。HUPO-HiPP项目的支柱内容是方法和技术开发、标准化、有效的数据共享和教育。

◊食品和营养

食品和营养(The Food and Nutrition, FAN)项目使用蛋白质组学来描述与营养问题、食品安全和粮食安全相关的膳食蛋白质和蛋白质组变化。
Paola Roncada带领的食品与营养(FAN)团队概述了可用于研究食物过敏性蛋白质的先进方法。FAN团队还专注于人类肠道菌群研究,同时与其他旨在促进在饮食和营养研究中使用组学技术的科学家联盟有广泛合作。Subhra Chakraborty团队发现了2-Cys过氧化物还蛋白质在小麦耐热性中的作用。Figeys团队制定了一个优化的实验和生物信息学工作流程,用于定义人类肠道内微生物物种的赖氨酸酰化。

◊风湿性和自身免疫性疾病

风湿性和自身免疫性疾病(The overarching goal of the Rheumatic and Autoimmune Diseases, RAD)团队首要目标是发现和表征可用于风湿性疾病的预后或治疗的人类蛋白质,包括与年龄相关的病理、炎症性疾病和系统性自身免疫性疾病。
2021年基于科学家和临床医生之间的各个蛋白质研究团体合作,完成了公共-私人研究所关于骨关节炎临床研究的项目(APPROACH)。Blanco和Nilsson团队确定了膝关节骨性关节炎的预测因素;Blanco团队与Ruiz-Romero、Heeren团队合作,实施定向质谱法或成像质谱法,以发现骨关节炎患者滑液或膜内的标志性脂质体谱;RAD团队成员在欧洲风湿病学大会、骨关节炎大会上,以及通过组织的专题讨论会的形式报告了相关发现和建立的蛋白质特征,作为病人分层和治疗管理的生物标志物的协议。

◊传染性疾病

传染病(The Infectious Disease, ID)团队致力于解析包括人类病毒和细菌在内的微生物感染的生物学和致病机制。该团队成员开发了用于检测致病蛋白质、宿主蛋白相互作用,及由感染引起的蛋白质丰度或翻译后修饰变化的先进质谱方法。
Cristea团队开发了TRUSTED用于特异性检测三个疱疹病毒科亚家族的病毒蛋白,证明其可用于监测临床治疗剂和抗病毒或促病毒因素的效果。
Nita-Lazar团队将代谢组学与分泌组分析相结合,建立了细菌脂多糖(bacterial, lipopolysaccharide, LPS)耐受性、免疫代谢和巨噬细胞分泌组变化之间的联系。
Concha Gil团队确定了白色念珠菌对压力的蛋白质组变化,探索Prn1在氧化应激中的作用和未来抗真菌药物的可能靶点,并确定了白色念珠菌释放的胞外囊泡中与毒性有关的蛋白质的蛋白质组变化。
Malmstrom团队用定量和结构质谱法证明,化脓性链球菌,一种人类特异性的革兰氏阳性细菌,与人类血浆蛋白质建立血清型特异性的相互作用,这可能是在粘膜和系统感染期间抑制免疫反应的一种方式。
LaBaer团队整合了来自蛋白质芯片数据的信息,确定了一组存在于健康人中常见的没有性别偏好的自身抗体,从而为确定已知的疾病相关生物标志物中可能的假阳性数据提供了关键信息。
为了应对正在进行的大流行病,ID团队与其他B/D-HPP团队的成员(如上所述)一起,阐明SARS-CoV-2感染的生物学和病理学研究。Srivastava、Schmidt和Volker团队等建立了强大的质谱方法来检测SARS-CoV-2的蛋白质,定义了蛋白质-代谢物特征谱和临床样本之间的互相干扰,预测了临床结果并描述疫苗引起的并发症。
为了在2021年大流行病的条件下继续讨论沟通相关成果和新开发的方法,B/D-HPP举办了题为 “从蛋白质组学的角度看SARS-CoV-2” 的网络研讨会,来自不同B/D-HPP团队的成员从各自团队的具体科学角度介绍了他们在应对COVID-19大流行病方面的研究贡献。
(https://www.hupo.org/Webinars-and-Virtual-Presentations)

四个资源支柱的发展情况

4.1 知识库资源支柱研究进展

UniProtKB/Swiss-Prot管理员继续专注于提高人类蛋白质组序列质量和注释内容。这项工作包括重新整理那些被证明是不正确的序列,删除那些现在被认为没有表达的蛋白质条目,比如现在被认为是假基因的假定产物,以及创建新发现的蛋白质编码基因产物的记录。新的异构体会在实验数据验证后添加,或在证明有误后删除。
现在,约93%的UniProtKB/ Swiss-Prot序列与人类基因组翻译的相应Ensembl蛋白质序列相同;正在进行的工作主要是明确包括参考序列在内的其余7%的条目之间的差异。
同时,该研究的重点还在于确保与NCBI和EMBL-EBI(MANE)匹配注释的一致性。MANE是EMBL-EBI与NCBI合作创立的,目的是在人类基因和转录本注释方面进行融合,共同定义一套高价值的转录物和相应的蛋白质。通过专业管理员不断地将功能信息添加到UniProtKB/Swiss-Prot条目中,同时在基因本体注释项目中对相同的蛋白质进行注释,并添加到IMEx数据库的蛋白质相互作用数据中。
大规模的数据集,包括通过MS鉴定的肽,在网站上可视化并可通过API下载。neXtProt 自动执行 UniProtKB/Swiss-Prot 的管理决策,但是也会包括一些异常信息,后续的工作内容就是解决这些问题。

从 Ribo-seq Open Reading Frame (ORF) 序列翻译潜在多肽

2022年7月Jonathan Mudge(EMBL-EBI)领导、HPP参与的Ribo-seq ORFs标准化注释战略在《Nature Biotechnology》上发表。该小组的目标是为关于上游uORFs或小型smORFs(small Open Reading Frames,smORFs)的数据找到一个像GENCODE一样的 “home”,从而促进蛋白质潜在功能的广泛联合研究。
PeptideAtlas将以其基于Trans-Proteomic Pipeline的流程对公共人类数据集进行重新分析,来检索7264个ORF的翻译证据。如果没有可靠的实验结果表明这些多肽具有功能,那么该项目的目标将转变为以一种能够将它们作为一个单独类别进行识别和研究的方式对它们进行注释。
图1中可知,UniProtKB/Swiss-Prot最近纳入了三个新的uORFs,这些uORFs是在2021年期间根据潜在功能的文献证据添加到neXtProt中的。这种对短多肽的关注所提出的问题不是多肽是否具有生物活性(这是众所周知的),而在于是否应该将短于某个阈值长度的多肽与 “蛋白质” 区分开来,如果不采用HPP指南v3.0,应该采用什么标准进行区分。

4.2 抗体支柱/人类蛋白质图谱研究进展

HPP抗体资源支柱:基于人类蛋白质图谱(The Human Protein Atlas, HPA)项目,专注于利用空间蛋白质组学和基于抗体的成像绘制人类蛋白质组图。
在HPA的21.1版本中(发布日期为2022年5月31日),对数据库的结构和内容进行了重大更新,将数据分为10个主要部分,每个部分都侧重于人类蛋白质组和基因组的特定方面。HPA v21建立在Ensembl 103版基因组发布的基础上,对所有蛋白质编码基因进行注释,并为所有数据集引入了新的标准化方案。
在v20(2020年11月19日发布)中引入的单细胞类型部分,扩展到包括来自25种组织类型的单细胞转录组学数据,提供了人体单细胞类型表达的全身概况。该数据集用于比较基于抗体的蛋白质组学数据,使用免疫组化法研究不同平台的单细胞类型的表达。这也有利于进行更严格的抗体验证,这是抗体资源支柱的主要目标之一。
HPA的一个补充部分,即组织细胞类型部分,是在v21中添加的。在这部分,对公开的大量RNAseq数据进行去卷积和综合网络分析,以预测所有人类蛋白编码基因的细胞类型表达特异性。该研究可以明确组织内的每一种细胞类型中分别富集了哪些基因,并详细研究跨越几种组织表达的核心细胞类型。
2021年,主要更新的部分是大脑相关数据,重点关注不同脑区的表达谱;增加了内部生成的RNA-seq数据,来自>1300个人类大脑样本,涵盖了200个区域和细胞核。亚细胞部分提供了对蛋白质时空亚细胞分布的研究;对细胞周期依赖性基因的深入分析在v21中得到了扩展,包括另外129个具有细胞周期依赖性转录的基因。
血液蛋白部分主要的更新内容在人类血浆中检测到的蛋白质浓度估计:增加了850种蛋白质的血浆浓度。纵向血浆表达水平的数据增加了708种,基于Olink Explore平台的蛋白质数据人类分泌组增加了免疫球蛋白基因的新类别。
总的来说,现在预测的分泌蛋白质总数为2739个,其中被注释为在血液中分泌的蛋白质数量为784个。最新更新的内容涉及了脂肪组织。HPA的工作流程和抗体已被用于目前主流的研究工作中,包括与COVID-19大流行病相关的几个项目和先进成像技术的尝试中。

4.3 病理资源支柱研究进展

病理学支柱(Pathology Pillar, PP)在确认病理学必须在转化和提供蛋白质组学驱动的生物标志物发现和下一代诊断及治疗方面发挥重要作用。
本资源支柱旨在协调确定临床医学中未得到满足的关键需求,鼓励制定适合目的的验证性临床检测方法的准则和标准,促进对最佳检测方法的认识,并协调对临床样本及其相关数据生物资源的获取。
在NCI协调下,组建的临床蛋白质组学肿瘤分析联盟(The Clinical Proteomic Tumor Analysis Consortium, CPTAC)已经为总共14种常见或不常见的癌症(如胰腺、肺、急性髓系白血病、胶质母细胞瘤、头颈部)阐明了独特和强大的蛋白质基因组学景观。新一轮对另外10种肿瘤类型的特征分析将于2022年底开始(包括肝细胞癌、胆汁癌和胃癌)。
目前的CPTAC方法中,只对未经治疗的原发性癌症进行分析。要更好地了解癌症的转移过程以及靶向化疗和免疫疗法对蛋白质组学演变的影响,需要进行大规模的纵向研究。
其他与PP有关的文献包括:氧化还原信号通路在癌症中的作用、耐药性、以及肿瘤细胞可塑性在修改治疗反应中的新作用。Martens等人开发了一个恶性胸膜间皮瘤(Malignant Pleural Mesothelioma, MPM)的分子通路模型,这是一个可视化的、互动的蛋白质和已知与MPM有关的分子通路之间的相互作用和联系概览。另外,还有关于蛋白质组学、个性化医疗和癌症的评述,以及分离科学在蛋白质组学中的作用。
如图6所示确定重大的医疗需求和具体的疾病或应用,使蛋白质组学比传统的基于DNA和RNA的分子诊断法更有优势,这是病理学基础的一个重要目标。
去年的一些研究显示了新的蛋白质标志物可用于癌症的风险预测。由于目前没有强有力的预测标志物来指导治愈性手术后的高风险患者进行额外的辅助治疗,同时保护低风险患者免受有害的、导致身体衰弱的、昂贵的过度治疗的相关策略,因此这项研究对于早期癌症治疗十分重要。
人类黑色素瘤蛋白质组图谱专注于深入的组织病理学,加上蛋白质组特征,定义了黑色素瘤的分子病理学。一个跨越28种组织类型的949个人类细胞系的泛癌症蛋白质组图谱(https://cellmodelpassports.sanger.ac.uk)揭示了对未来临床研究具有重要意义的蛋白质调节原则。
同时,蛋白质组学对解析SARS-CoV-2和COVID-19,包括 “long COVID”,即持续咳嗽、疲劳、肌肉和关节疼痛、记忆力下降、脑雾或抑郁症,也做出了重大贡献。有几篇论文显示与人类自身免疫有惊人的关系;对人类肺部细胞的分析显示,在急性感染期间,大量COVID失调蛋白质是已知的人类自身抗原。

图6 基于蛋白质组学的结肠癌个性化结果风险预测

最后,HPP病理学的使命是通过会议和辅导,加强对全世界医生和医疗机构的教育和宣传,提高对蛋白质组学的认识并促进国际病理学和实验室医学学会与HUPO和HPP建立密切的合作联系,将这些举措推广到世界各地。

4.4 用于血液蛋白检测的互补组学技术

血液中蛋白质鉴定的亲和力测定法的不断发展,加速了这些技术在高通量血浆和血清蛋白质组学中的应用。最近对这些基于非质谱技术的血液蛋白质组学技术的评论描述了每种技术的优点和缺点,并强调需要对每种技术进行定量评估和比较以验证每种方法。

靶向检测发展中最突出的是近似延伸检测(Olink公司的PEA),其构造为成对的抗体,以定量聚合酶链反应(qPCR)或测序作为读数,或大量的改性慢速DNA适配体库(SomaLogic的SomaScan)。Olink提供了2940种(3K系统)独特的检测方法,SomaLogic提供了6377种(7K系统)针对人类血浆蛋白的检测方法。

目前,这些平台间目标蛋白质重叠度过高结合所有三个平台,有超过8000种蛋白质可以作为潜在检测血浆蛋白质的目标。

过去几年,有研究已经比较了不同的靶向检测方法及其检出的关联性。但是这些大规模的靶向测定只报告相对的定量值,且靶向蛋白质结合分子的方法不同,每个被测定的蛋白质的结合表位不同,以及检测方式不同,因此在测定之间的关联反应有相当大的困难。相关性差异很大,对不同平台的研究结果难以关联的解释。

这些差异使需要准确鉴定和定量的临床化学应用变得非常复杂。开发一项新的技术,需要很多实验证据验证其特异性和准确性。Somalogic公司评估了他们基于诱导剂的亲和试剂的特异性,虽然在这项实验中每种试剂的定量准确性还有待调查,但这组数据为确定这些新技术之一的核心试剂的特征提供了第一个证据。

利用标准化的96孔板靶向蛋白质组学测量的高通量分析,可以快速量化实验中和不同实验中检测到的分析物的差异。在SCALLOP内,拥有Olink数据的研究人员希望比较不同队列的结果,从而增加可搜索结果的总库。

目前,SCALLOP有超过70000个样本结果可供成员使用。另一个大型联盟是人类制药蛋白质组学项目(HPPP),最近完成了对英国生物库参与者的54306份血浆蛋白质组图谱的初步描述。使用Olink 1.5K panel(1463个独特的蛋白质)作为第一阶段的分析,并包括蛋白质定量性状位点(pQTL)图谱,确定了10248个初级遗传关联,其中85%是新发现的。数据确定了92%的顺式位点和29%的反式位点的独立二级关联,扩大了用于下游分析的遗传工具目录。

这项研究提供了血浆蛋白质组遗传结构的最新特征,利用群体规模的蛋白质组学为跨多个生物领域的反式pQTLs提供新的广泛结果。

这项大型研究用一种单一的技术确定了许多可操作的药理结果,如确定对配体-受体相互作用的遗传影响、通路扰动和新的药物靶点,PCSK9水平对脂质浓度和心脑血管疾病的遗传代理效应。

这些数据将Olink分析扩展到Olink 3K panel,并在较小的UKB受试者群中进行各种基于质谱的试验规模分析。将公共血浆蛋白质组知识库作为一种开放的蛋白质组学资源,将有助于阐明遗传发现背后的生物机制,并加速新型生物标志物和治疗方法的开发。为了使平台之间的定量反应相关化,在Price、Ruffieux这两个团队的系统研究中将质谱法与Olink检测的定量读数进行了比较。

基于质谱的方法并没有摆脱定量的困境,质谱中绝大多数的蛋白质检测和定量都来自于自下而上的方法,其中蛋白质被酶切成短肽,在质谱仪中被鉴定和定量,然后最后汇总成一个蛋白质水平的定量值。鉴于每个基因产物估计有100种不同的蛋白形式,肽信号的平均化不考虑翻译后修饰的贡献,可能会妨碍发现重要的生物差异。

在我们了解每个被鉴定的蛋白质的背景之前,任何技术所提供的每个蛋白质的定量值都需要用正交的方法来验证,以说明生物的多样性。随着技术的不断发展,需要利用每种技术的优势,并以跨平台的能力作为补充,以得出解释生物差异的结论。

HPP Grand Challenge Project:“每个蛋白质都有功能注释”

基于已有的研究进展和数据积累,在2020年HUPO年会期间,由Robert Moritz领导的HPP执行委员会宣布了HPP大挑战项目框架,并随后在HPP网站上发布了一份白皮书(www.hupo.org)。其目的是在一个开放的社区框架内促进我们对复杂生物过程的理解,个人和团体可以提出各种可资助的工作计划,为实现项目目标作出贡献。
其中第一个项目是HPP Grand Challenge Project ”每个蛋白质都有功能注释”。该项目将通过对细胞中特定蛋白质表达或敲除后蛋白质组的变化进行分析和建模,来判断任何蛋白质通常具有的多种功能。从本质上讲,通过扰乱细胞分子网络中的相关蛋白质,可以揭示出蛋白质的功能。该项目包括以下几个方面:
蛋白质的定量状态(表达水平、异构体、翻译后修饰、定位、相互作用)在网络和相互作用体的背景下,可被个体间的变化、特定的结合相互作用和蛋白质复合物的形成所扰乱,影响其功能相关性。
基因组学和蛋白质组学的结合可以明确蛋白质的功能并且获知蛋白质的相互作用,将其应用在临床疾病研究中可以获悉疾病的分子机制。临床蛋白质组学研究可以成为本项目的丰富数据来源。在以疾病为中心的临床队列设计中,由患者异质性产生的各种临床表征亚型在概念上等同于生物扰动实验。
从病理学的角度来阐释疾病的发生发展,如空间和时间、疾病分层、疾病干预后等方面相关蛋白质网络产生的变化,以及利用其他资源如Human Protein Atlas antibody resource和Target 2035 small molecules binder resource 来识别新的治疗靶点。
通过建立数据库和数据资源,用于收集、整理和传播蛋白质干预后其上下游的蛋白网络状态。
HPP Grand Challenge Project “每个蛋白质都有功能注释” 在HUPO 2021年大会、2022年Lorne澳大利亚蛋白质组学研讨会以及其他由HPP执委会成员举办的国内和国际会议上向蛋白质组学公众展示。HPP执行委员会内部已经宣布成立一个特别工作组,对新出现的提案提供意见和观点。
该工作组的目的不是对资助申请进行评估或排名,而是就项目的目标、里程碑、可交付成果以及与HPP大项目的其他组成部分的契合度向项目负责人提供建议和集体支持。第一批对发展这一重点项目表示出极大兴趣的国家是法国(负责人现任HPP主席Charles Pineau)和中国(负责人郭天南和贺福初)。
在法国,Pineau在几所大学以及法国国家生命科学与健康联盟(Aviesan)和法国国家研究机构(the French National Research Agency, ANR)介绍了该项目。会议同意法国研究团队可以在2022年10月的下一次年度提案征集中申请与HPP有关的资金。目前正在与德国研究基金会(Deutsche Forschungsgemeinschaft, DFG)组织类似的以国家为重点的展示战略,并将由其科学家推广到其他欧洲国家。
在中国,郭天南在杭州提出了西湖先导项目(Westlake Pilot Project):根据与乳腺癌的相关性,最初选择了50个代表性的蛋白质进行功能分析,明确其在HEK293T人类胚胎性肾脏细胞中的作用。这些蛋白质中的大多数都有已知的功能,可以建立一个训练模型,其中一些功能不明确的蛋白质将通过使用CRISPR-Cas9实验对每个蛋白质的蛋白质组扰动进行调查。这个试点项目将建立一个数据质量控制、存储、分析和可视化的工作流程,并作为中国的初步贡献,在HPP成员之间进行广泛的交流。
HPP Grand Challenges Projects 将作为一个协调点,将这些倡议联系起来,以完成解码每个人类蛋白质功能和实现精准医学的宏伟目标。

原文链接:https://doi.org/10.1021/acs.jproteome.2c00498

编译:王佳童

问询(英文)

公众号