Nat Med|中英芬三国队列:血浆蛋白质组预测死亡率和疾病风险

阅读量 :458

随着年龄增长,人类面临各种慢性疾病和死亡的风险增加。然而,传统的按年龄预测疾病的方法并不精确。近年来,DNA甲基化等已被用于创建 “生物时钟”,但蛋白质组学或可提供比基因表达更直接的衰老机制和功能见解。

8月8日,牛津大学纳菲尔德人口健康系研究团队在 Nature Medicine(IF:58.7)发表 Proteomic aging clock predicts mortality and risk of common age-related diseases in diverse populations 一文,研究表明蛋白质组衰老与死亡率、18种慢性疾病的风险以及包括认知功能在内的众多与年龄相关的特征相关联。

图1 论文截图

- 提纲挈领 -

研究开发了一个基于204种蛋白质的蛋白质组衰老时钟(ProtAge),其预测年龄的模型在UKB、CKB和FinnGen三个独立人群中的R²分别为0.88、0.82和0.87,且该模型的表现优于其他DNA甲基化或蛋白质组衰老时钟。通过追踪这些群体的随访数据,研究发现蛋白质组衰老与生理功能衰退、易患疾病(如阿尔茨海默症、慢性肾病)的风险增加密切相关。研究进一步简化了模型,得到了一个20种蛋白质的版本(ProtAge20),能实现与原204蛋白质模型几乎相同的预测性能。

 

结果1:
蛋白质组衰老时钟(Proteomic Age Clock)

研究利用英国生物样本库(UKB)、中国慢性病队列研究(CKB)和芬兰生物库(FinnGen)的血浆蛋白质组数据,开发了蛋白质组衰老时钟(Proteomic Age Clock,ProtAge),并在三个独立队列中验证其预测能力。

研究中选取了45,441名UKB参与者(平均随访时间为11-16年)、3,977名CKB参与者(随访11-14年)和1,990名芬兰参与者。通过比较多种机器学习方法,最终选择LightGBM模型,结合Boruta特征选择算法和SHAP值,从2,897种蛋白质中识别出204种与年龄相关的关键蛋白质(APs)。

ProtAge模型在UKB测试集和CKB、FinnGen独立验证集中的R²值分别达到0.88、0.82和0.87,表明其具有良好的泛化能力。此外,通过递归特征消除,研究进一步缩减至20种关键蛋白质(ProtAge20),在保持95%预测性能的同时,显著简化了模型。

图2 研究设计和分析方法

 

结果2:
proteomic aging预测虚弱和衰老表型

研究发现,蛋白质组衰老与多种生理和认知功能下降以及生物学衰老指标(如端粒长度、IGF-1水平等)显著相关。蛋白质年龄较大(ProtAgeGap增大)与较差的自评健康状况、慢行走速度、较差的抓握力、较高的血压和体重指数(BMI)等均显著相关。这些关联在未诊断重大疾病的参与者中也得到了验证。

相比于204种蛋白质模型,20种关键蛋白质模型(ProtAgeGap20)在预测生物学衰老指标(如端粒长度和白蛋白)上表现更强,但在衰弱和生理功能测量上的效果略弱。

*proteomic age gap(ProtAgeGap):蛋白质组年龄差,即蛋白质预测年龄与实际年龄之间的差异


结果3:
proteomic aging是常见疾病的有力预测指标

研究表明,proteomic aging 是预测常见疾病和全因死亡率的强有力指标。在UKB和CKB中,ProtAgeGap值高的个体显示出更高的重大疾病(如骨关节炎、糖尿病、心脏病)和死亡风险。

研究还通过Cox比例风险模型确认了ProtAgeGap与14种非癌症常见疾病及全因死亡率之间的显著关联,尤其是阿尔茨海默症(HR 1.16)和慢性肾病(HR 1.10);甚至在控制了年龄、性别、生活方式等因素后,这种关联仍然存在。
此外,分析还显示,构成ProtAge20的20种蛋白质与多种主要慢性疾病相关,其中GDF15与大多数疾病关联最强。

图3 ProtAgeGap将人群分为不同年龄段的死亡率和疾病风险轨迹


结果4:
proteomic aging随着多重疾病的增加而增加

研究发现,随着多重疾病(multimorbidity)数量的增加,ProtAgeGap也随之增加。在UKB中,在招募时年龄为40-50岁的参与者中,与0次疾病诊断的参与者相比,一生中诊断4+次的参与者的ProtAgeGap年数多了1.5年。

ProtAgeGap与健康记录得出的多重疾病状态之间的关系也反映在自我报告的健康信息中,自报健康状况良好的个体其ProtAgeGap则相对较低。

 

结果5:
生物功能和蛋白质相互作用网络

研究发现,构建蛋白质组衰老时钟的204种蛋白质(APs)在解剖结构发育和发育过程方面具有显著的功能富集。通过蛋白质-蛋白质相互作用(PPI)网络分析,这些蛋白质形成了一个高度互联的子网络,关键节点包括EGFR、CXCL12等,涉及癌症、免疫反应和身体发育等生物过程。

此外,基于模型的SHAP值分析显示,一些蛋白质(如ELN、GDF15等)在年龄预测中具有重要作用。最终选出的20种蛋白质(ProtAge20)能实现与204蛋白质模型几乎相同的年龄预测能力(95%),它们主要参与细胞粘附、免疫反应、激素调节、神经元结构和功能等关键生物过程。

结果6:
与现有DNA甲基化和蛋白质组衰老时钟的比较

研究人员将ProtAge与现有的DNA甲基化(DNAm)时钟和其他蛋白质组学衰老时钟进行了比较。他们发现,ProtAge模型选择的蛋白质与主要的DNAm时钟(如Horvath clock、DNAm PhenoAge和DunedinPACE)的基因重叠程度较低。

此外,ProtAge与三项已发表的大型蛋白质组学衰老研究中的蛋白质有一定的重叠,但其中134个蛋白质(约64%)在先前的研究中未被发现(表明这些蛋白质组成了一个新的集合);尽管有一些重叠,但这些重叠的蛋白质与现有的DNA甲基化时钟基因无关,这表明DNA甲基化和蛋白质组时钟可能涉及不同的基因集合。


总 结

该研究提供了全面而有力的证据,表明 proteomic aging 是预测死亡率和多重疾病的可靠指标,并且与所研究的14种非癌症疾病和四种常见癌症(食道癌、前列腺癌、肺癌和非霍奇金淋巴瘤)的未来风险相关。此外,作为一个可靠的多病风险预测工具,ProtAge在不同种族群体中也表现稳定。


点此查看论文链接


更多血浆蛋白组学文章:

Nat Med|UK Biobank血浆蛋白组学数据预测疾病风险

Nat Commun|UK Biobank:1463种循环蛋白与19种癌症风险的关联分析

 

问询(中文)

公众号