九国科学家联合撰文总结人类蛋白质组研究2024年进展

View :178

      上月,来自美国、加拿大、法国、英国、德国、瑞士、瑞典、澳大利亚和中国的9个国家、18个机构的20位学者,联合撰文总结了国际人类蛋白质组计划(HPP)的2024年度报告。

      报告以 The 2024 Report on the Human Proteome from the HUPO Human Proteome Project 为题发表于 Journal of Proteome Research

      报告全面总结了HPP在2024年的重大进展和变革,包括知识库转型、目标列表优化、功能注释改进,以及各子项目在疾病研究中的成果。这份报告不仅是对蛋白质组学研究的回顾,也为未来的发展指明了方向。

      在过去的一年里,HPP迎来了重要的转型。首先,作为原始参考数据库的neXtProt光荣「退休」,新的知识库UniProtKB取而代之,成为参考蛋白质知识库。同时,Ensembl-GENCODE成为蛋白质靶点列表的核心数据来源。这一转型提升了数据的统一性和应用范围,为全球蛋白质研究提供了更加权威和灵活的资源。

      报告介绍了HPP提供的关键技术和资源支持,包括人类蛋白质图谱(Human Protein Atlas,HPA)提供的抗体和转录组数据、ProteomeXchange和MassIVE-KB支持的大规模质谱数据共享,以及新开发的HPP Portal,以提供最新的蛋白质目标统计数据。这些资源的协同整合为蛋白质组学研究的深入开展提供了坚实基础。

      报告还介绍了一个初步的Function Evidence FE1-5评分系统,用于根据UniProtKB中包含的Gene Ontology注释对每种蛋白质的分子功能现有理解的证据进行排名,这是HPP重大挑战项目“为每种蛋白质找到功能”(A Function for Every Protein)的关键步骤之一。

      同时,报告也指出了HPP目前面临的两大挑战:一是尚未检测到的蛋白质数量仍需进一步降低;二是未知功能蛋白的注释覆盖率不足,亟待更多实验数据的验证。

 

Part 1
HPP 2024年进展

过去一年中,HPP指标的计算和呈现方式发生了几项重大变化,包括蛋白质目标列表、参考基因组以及蛋白质功能评分的重大更新。

1. HPP参考目标蛋白列表(Reference Target Protein)的变化

从neXtProt到UniProtKB的过渡

neXtProt知识库停止更新,其功能已由UniProtKB接替。UniProtKB继承了neXtProt在高质量质谱数据(如PeptideAtlas和MassIVE-KB)中提升protein evidence(PE1)等级的标准化流程,从而保持了指标的一致性。

从neXtProt到GENCODE的目标列表转变

GENCODE取代neXtProt成为参考目标蛋白列表,删除了许多历史遗留但不具备现代蛋白质编码意义的条目(如免疫球蛋白可变区,immunoglobulin variable regions)。这一转变共减少了978个蛋白质条目(移除了1254个蛋白质条目,同时新增了276个),并进一步提高了列表的科学性和准确性。

2. 当前状态

截至2024年,HPP基于最新目标列表,已成功鉴定出18,138个PE1(protein-level evidence,PE1)蛋白(覆盖率达93%),而尚未鉴定的缺失蛋白(missing proteins)数量降至1,273个。2024年目标列表中蛋白总数的减少,主要得益于对冗余和不必要条目的清理与优化。

此外,PeptideAtlas在2024年的数据构建中新增了214个质谱数据集,其中171个新发现的标准蛋白质通过质谱验证,特别是在阿尔茨海默症等神经退行性疾病的脑样本中发现了大量新的蛋白质。然而,大多数新增数据集对新蛋白鉴定的实际增量较为有限,表明现有数据资源的进一步挖掘具有一定挑战性。

3. 蛋白质功能与功能证据评分(FE)

为了系统地评估蛋白质的功能信息,HPP开发了一个FE(function evidence)评分系统,类似于PE(protein-level evidence)评分系统,采用FE1-5等级来衡量蛋白质功能注释的可靠性:FE1代表最高的功能注释等级,表明对该蛋白质功能有高度的可信证据;FE5则表示对蛋白质功能几乎没有已知信息。

该评分系统主要依赖于UniProtKB数据库,利用其中的功能描述、基因本体论术语(Gene Ontology terms)和酶学委员会(Enzyme Commission,EC)编号等信息,快速计算和验证功能证据。根据最新的评分结果,19,411个目标蛋白中,已有5,229个蛋白达到最高功能注释等级(FE1),表明它们的功能已得到充分验证;其余的蛋白则分布在FE2到FE5的不同等级,反映出不同程度的功能理解和证据支持。这一评分体系为追踪功能注释进展提供了标准化工具,并为未来深入研究奠定了基础。

4. HPP Portal

随着neXtProt的「退役」,HPP推出了新的HPP Portal(hppportal.net),该网站旨在为全球研究人员提供最新的蛋白质组数据。

HPP Portal允许用户根据染色体、PE评分、FE评分等多种标准分类和查看目标蛋白的详细信息。该平台不仅支持蛋白质的查询和筛选,还提供每个蛋白的基因位置信息、功能注释、表达情况等数据,极大地方便了科学家们对人类蛋白质组的探索和分析。HPP Portal已于2024年12月正式上线,并计划每年更新一次,以确保数据的时效性和准确性。

https://hppportal.net/

Part 2
来自生物学和疾病驱动的HPP亮点

报告展示了来自多个 BD-HPP(biology and disease-driven HPP)团队的具体工作。

1. 人类脑蛋白质组计划(HBPP)

人类脑蛋白质组计划(Human Brain Proteome Project)汇聚了全球神经蛋白质组学专家,2024年5月,HBPP在爱尔兰都柏林举行了第33届研讨会,讨论了与神经退行性疾病(如阿尔茨海默症、帕金森病)和神经精神疾病(如精神分裂症、自闭症)相关的研究。

大多数研究采用了以质谱为主的蛋白质组学技术,结合多组学平台和多变量机器学习方法,揭示了疾病的分子机制,这些研究为神经疾病的早期诊断和潜在治疗策略提供了新视角:

● 确定与阿尔茨海默症相关的脑源性蛋白质标志物(如PTPRN2、NCAN);
● 使用开放源码工具MaCProQC快速对脑脊液蛋白质数据进行质量控制;
● 发现在精神分裂症患者的神经干细胞中,线粒体氧气消耗降低和活性氧(ROS)水平升高。

2. 人类肝脏蛋白质组计划(HLPP)

人类肝脏蛋白质组计划(Human Liver Proteome Project)聚焦于通过蛋白质组学驱动的精准医学实现肝细胞癌(HCC)的早期诊断和个性化治疗。项目的关键成果包括:

● 开发了基于质谱的无创早期诊断panel(P4),能比影像学方法提前11.4个月预测肝硬化转变为HCC,准确率达 90%;
● 深度学习工具DeepRTAlign提高了HCC早期复发的预测精度,并在大规模蛋白质组和代谢组研究中展现了广泛应用潜力;
● 多组学分析确定了HCC的三种分子亚型,揭示了其基因变异、微环境失调和治疗反应差异,支持了以分子亚型为基础的精准治疗策略(如索拉非尼的应用);
● 通过蛋白质组数据预测了40种FDA批准或正在临床试验中的药物,作为潜在干预手段;
● 确定溶菌酶(LYZ)为HCC的预后标志物,发现其通过细胞表面GRP78介导的信号通路促进肿瘤增殖,成为新的治疗靶点。

3. 人类糖蛋白组学计划(HGI)

人类糖蛋白组学计划(The Human Glycoproteomics Initiative)一直专注于改进N-和O-糖肽鉴定与定量的生物信息学工具。

2024年,HGI推动了第二次社区挑战,计划由全球20多个软件团队参与,跨实验室的数据分析和软件性能评估预计于2024年下半年启动,并在2025年上半年完成。为连接两次研究,HGI于 2023年在中国台北的Glyco26会议上组织了一场关于糖蛋白质组学软件的互动会议,讨论了该领域的机遇和未来方向。

此外,HGI社区与德国 Beilstein Institute 合作制定了糖蛋白质组学实验的最低信息要求指南,预计将在2024年底发布。这些努力为糖蛋白质组学研究提供了标准化支持,推动了技术的发展和应用。

4. 人类免疫肽组计划(HIPP)

人类免疫肽组计划(Human Immunopeptidomics Proteome Project)在提高肽抗原的获取和鉴定方面取得了重要进展。

通过LC-MS和PASEF质谱技术,HIPP提升了HLA(人类白细胞抗原)肽鉴定的灵敏度和范围,同时扩展了非经典HLA相关肽组的定义。

研究还深入分析了肿瘤免疫识别机制及非小细胞肺癌(NSCLC)的肿瘤微环境,发现了炎症肿瘤中的免疫编辑证据。此外,mRNA疫苗结合质谱鉴定的癌症抗原在胰腺癌和NSCLC的免疫治疗中表现出潜力。

最后,HIPP鉴定了TCR类抗体药物的生理相关脱靶抗原,为未来药物筛选和优化提供了新工具。这些进展促进了临床转化研究的发展,为免疫治疗提供了新的思路。

5. 单细胞蛋白质组学计划

单细胞蛋白质组学计划旨在通过全局质谱技术分析单细胞和小亚群蛋白质,揭示组织的异质性并深入理解复杂生物机制,如器官发育和疾病进展。

尽管在样品制备、仪器灵敏度和数据分析上取得了进展,该领域仍面临高通量和深度蛋白质组覆盖的挑战。新技术和数据分析pipeline提高了单细胞数据的鉴定和定量能力,特别是在研究蛋白质翻译后修饰、细胞异质性以及不同疾病(如淋巴瘤和白血病)中的应用。

6. 尿液蛋白质组计划

尿液蛋白质组学计划旨在寻找可用于诊断和监测各种疾病的生物标志物。尿液采样非侵入性,能敏感反映全身各器官的变化。尽管尿液蛋白质组的复杂性较血清或血浆低,但质谱技术已扩展了尿液中蛋白质的检测范围。

去年,研究发现了与卵巢癌、胰腺癌、急性胰腺炎、膀胱癌等疾病相关的尿液生物标志物,还包括机器学习模型的应用。其他研究关注了子宫内膜异位症、心力衰竭、糖尿病肾病(含8种蛋白质的标志物panel)及新生儿坏死性小肠结肠炎等疾病。此外,监测孕妇尿液蛋白质组以评估胎儿发育也展现出潜力。

7. 人类血浆蛋白质组计划(HPPP)

血浆蛋白质组学计划(Plasma Proteome Project, HPPP) 自2002年启动以来,不断更新人类血浆蛋白质图谱。

最新报告讨论了循环蛋白的个体内外变异性,并介绍了针对大规模队列分析的高精度方法,如Olink的亲和平台和NULISA。尽管质谱检测到的血浆蛋白数量较少,但通过Orbital Astral MS和富集技术的结合,检测能力大幅提高。

2023年4月的PeptideAtlas包含113个数据集,检测到4608个符合HPP标准的经典血浆蛋白,还识别了377个外泌体蛋白。此外,血浆中的糖蛋白、磷酸化蛋白及其共表达网络分析在临床中的潜在应用也有了新进展。

8. 癌症人类蛋白质组计划与病理学支柱及CPTAC

癌症人类蛋白质组计划(CHPP)与病理学支柱(Pathology Pillar)和美国临床蛋白质组学肿瘤分析联盟(CPTAC)联合开展的研究,涵盖肾脏、胰腺、结直肠、乳腺、肝脏、肺部、卵巢、前列腺、大脑和黑色素瘤等多种癌症类型。

CPTAC研究人员通过分析过度表达/激活的蛋白质、肿瘤抑制基因缺失相关的依赖性、肿瘤新抗原等,识别并验证了10种癌症的潜在治疗靶点。研究强调,直接分析蛋白质的浓度、位置和相互作用对癌症研究至关重要,因为这些信息无法从RNA或DNA研究中得到。

近期的技术进展包括高效、低成本的质谱分析方法,如Echo MS+系统和Stellar快速离子阱质谱仪,能够实现生物矩阵中肽段和蛋白质的绝对定量。

9. 病理学资源支柱

病理学资源支柱(Pathology Resource Pillar) 关注个性化健康和疾病的表型组学(phenomics)转型,研究从基因组学到表型学的趋势。例如,CLIA认证的质谱检测已被用于甲状腺球蛋白的临床应用,以及SARS-CoV-2变异株的研究。

为了提高临床样本处理的效率,CLINSPECT-M联盟致力于开发标准化的工作流程,尤其是针对血清和脑脊液样本。

此外,针对大量生成的数据,已制定了快速分析的protocol,如使用AlphaFold2预测蛋白质结构。这些研究为疾病状态、疗效评估和临床结果提供了重要的生物标志物。

10. 抗体支柱/人类蛋白质图谱

抗体支柱/人类蛋白质图谱(Antibody Pillar/Human Protein Atlas)致力于通过抗体技术映射健康和疾病中的蛋白质,为HPP Grand Challenge提供资源,帮助理解蛋白质在身体、细胞及亚细胞层级的空间定位。

通过改进抗体技术和研究新样本,HPA不断提高蛋白质定位的精确度。特别是在组织部分,结合多重免疫荧光与单细胞转录组学分析,揭示了细胞子集中的蛋白表达模式,探索了肾小管、唾液腺、睾丸生精过程中的生殖细胞及其他组织中的运动纤毛等细胞亚结构。

预计2024年底发布的HPA第24版本将包括多个重大更新,整合来自其他生物学数据库的数据,进一步提升HPA作为重要知识资源的作用。

11. HPP:为每个蛋白质找到功能

HPP正在推进 “为每个蛋白质找到功能”(Finding Functions for Every Protein)的重大挑战,目标是为每个蛋白质确定并验证至少一个分子功能。

计划已经接近完成其首个目标——确认所有参考目标蛋白的表达。至2023年,存在1181个缺乏功能注释的蛋白质(uPE1)。通过CHPP CP50倡议,出现了多个新功能注释。该计划还在与UniProtKB合作,建立功能证据评分系统(FE1-5),并推出了HPP Portal来支持这一挑战。

研究人员预计,来自于基于序列同源性、蛋白质与蛋白质、蛋白质与 RNA 相互作用的预测,以及使用 AlphaFold2、AlphaFold3 和其他算法的详细结构的计算预测,将对这个挑战做出贡献。

12. 人体蛋白质组导航国际大科学计划(π-HuB)启动

由中国科学家发起的人体蛋白质组导航国际大科学计划(Proteomic Navigator of the Human Body,π-HuB)项目已正式启动,该计划旨在通过多模态蛋白质组数据集,推动对人类生物学的理解、疾病风险评估、药物靶点发现及智能医疗。该项目涉及蛋白质组技术、蛋白质组数据和AI、衰老研究和临床转化等领域,计划通过跨国合作推动未来30年内人类蛋白质组学的发展。

过去一年,π-HuB团队在单细胞和空间技术、计算模型等方面取得了进展。衰老研究团队已建立了与中国人群衰老相关的血浆蛋白组谱,并设计了衰老蛋白钟来量化和跟踪衰老的进程。临床转化方面,来自西湖大学的Guomics团队开发了用于甲状腺肿瘤的综合谱库和蛋白质panel,并在2000名患者的细针穿刺活检中开发了多组学分类器 “ThyroProt” 用于甲状腺结节的诊断。

此外,Tiannan Guo、Chris Sander、Ruedi Aebersold、Peter Buhlmann等人提出了 “微扰蛋白质组学”(perturbation proteomics)和PMMP(Perturbations, Measurements, Modeling to Prediction)模型,开展了对63种FDA批准药物的乳腺癌细胞系的微扰蛋白质组学研究,并通过AI建立了用于预测乳腺癌药物治疗效果的模型。

Guomics团队还在西湖CRISPR试点项目中利用基因编辑研究1000个与癌症药物机制相关的基因,并计划通过分析这些基因的蛋白质组和磷酸化组,深化对基因功能的理解。

13. HPP ChemBioFrance试点项目启动

ChemBioFrance项目的 “一个蛋白,一个配体,一个功能”(A Protein, a Ligand, a Function)旨在通过化学干扰策略,使用生物活性小分子研究其对特定细胞系蛋白质组的影响。该项目通过评估蛋白质组在处理后发生的变化,探索蛋白质功能的细致特征。目前,八个试点项目已被选中,用于生成初步数据并推动数据库建设。

目前,所有样本都采用DIA-PASEF模式在大规模离子迁移质谱仪(即timsTOF Pro)上进行分析,数据分析使用SimpliFi工具,并通过Reactome平台对数据进行映射。项目的目标是推动蛋白质功能的深入表征(例如针对标记为FE2级别的蛋白质)。此项讨论正在进行中,计划在西班牙、韩国和德国复制该方法,并希望激励更多生物学家参与其中。

点此查看论文链接

 

问询(英文)

公众号