Nat Med|UK Biobank血浆蛋白组学数据预测疾病风险

View :873

7月22日,剑桥大学临床医学院MRC流行病学小组、葛兰素史克英国研发中心的研究团队在 Nature Medicine(IF:58.7)发表血浆蛋白组学新研究 Proteomic signatures improve risk prediction for common and rare diseases揭示了蛋白质特征在提高疾病预测效果方面的巨大潜力。

图1 论文截图

- 提纲挈领 -

通过在UKB-PPP队列中对2923种蛋白进行分析,研究人员开发了针对218种疾病的预测模型,显著提高了临床模型的预测效果。例如,仅使用五种蛋白质即可对163种疾病的预测表现与临床模型相当,且对另外30种疾病显著优于临床模型。在67种稀有和常见疾病中,增加5到20种蛋白质使中位C指数提高了0.07,10%假阳性率下的中位检测率提高至45.5%。此外,蛋白质预测在所有条件下均表现优越,并展示了多基因风险评分在疾病预测中的不足。

过去的蛋白质组学研究参与者数量太少,无法评估罕见和常见疾病,且大多数集中在常见疾病。该研究利用了UK Biobank Pharma Proteomics Project(UKB-PPP)的数据,这是迄今为止最大规模的蛋白质组学实验。

图2 研究设计


研究设计与方法

研究在UKB-PPP队列中进行,对2923种蛋白进行了血浆蛋白质组学分析。研究人员开发了针对218种疾病的预测模型,在随机选择的UKB-PPP子集中,193种疾病在10年随访期间超过80例新发病例。

模型基于验证的疾病表型,整合了来自初级护理、医院病例统计、癌症和死亡登记以及UKB健康问卷的数据。研究人员排除了基线评估前的现症病例或在随访初期(前6个月)记录的事件病例。

 

结果1:
稀疏蛋白质特征显著提高了预测效果

研究人员发现,五种蛋白质可以单独对163种疾病的预测效果与临床模型相当,对30种疾病有显著提升。

对于67种疾病,添加5至20种蛋白质显著提高了临床模型的预测性能,C指数中位数增加了0.07,假阳性率10%下的中位检测率提高到45.5%。蛋白质显著提高预测效果的疾病包括多发性骨髓瘤、非霍奇金淋巴瘤、肺纤维化、乳糜泻、扩张型心肌病和运动神经元疾病

在这些67种疾病中,蛋白质模型的改进特别明显,对稀有和常见疾病的预测效果更好,尤其是在血液和免疫疾病中。蛋白质预测模型在性别和发病年龄分层分析中也表现出显著差异,并在EPIC-Norfolk研究中验证了其广泛的适用性和预测效果。

图3 在67种疾病的基本临床风险因素上添加蛋白质组学信息,提高疾病发病率的预测性能。


结果2:
蛋白质预测多种疾病

研究发现,67个有临床意义改进的预测模型共包含501个蛋白质靶点,其中147个蛋白质被用于预测两个或更多(范围2-16)疾病。这些蛋白质大多跨越两个或更多临床专科(范围2-9)。

虽然这些蛋白质对个别疾病的预测贡献较低,但它们仍然显著提高了预测效果,且没有特定生物路径的富集。年龄和吸烟状态是一些广泛预测疾病的主要相关因素。

图4 与临床模型相比,蛋白质特征显著改善了67种疾病的C指数,在这67种疾病中,蛋白质被选为预测因子的疾病专科数量。


结果3:
特异性预测单一疾病的蛋白质

研究发现,有些蛋白质仅对单一疾病有强预测能力。例如,TNFRSF17特异性预测多发性骨髓瘤(MM),TNFRSF13B强预测单克隆丙种球蛋白病(MGUS)。这些蛋白质在其他疾病中的选择得分平均低86%。

研究还表明,这些蛋白质的血浆水平增加与这些血液癌症的未来发病强相关。此外,五种蛋白质的组合能在临床风险因素和单一TNFRSF17预测基础上,额外提高7%的区分能力。


结果4:
多基因风险评分(PGS)与临床模型和蛋白模型的对比

研究发现,在23种疾病中,PGS仅在7种疾病中显著提高了预测效果,但改善幅度较小(中位数C指数增加0.03)。

相比之下,蛋白质模型在这7种疾病中的预测效果更佳(中位数C指数增加0.08)。除了乳腺癌外,蛋白质模型在所有疾病中均优于PGS。


结果5:
蛋白质和临床模型的筛查指标

研究人员发现,在多种条件下,不同假阳性率(FPR,5-40%)范围内,蛋白质模型的筛查指标始终优于临床模型。

具体而言,FPR为20%时,蛋白质模型能高效识别出肺纤维化(检测率80%)和扩张型心肌病(检测率75%)高风险个体;FPR为5%时,能识别出多发性骨髓瘤(检测率50%)、非霍奇金淋巴瘤(检测率55%)和运动神经元疾病(检测率29%)高风险个体。


结果6:
敏感性分析

敏感性分析表明,增加Olink Explore Expansion panels中的更多蛋白质并未显著提升模型性能,但在某些特定疾病中,通过加入特定预测生物标志物(如TCN1、KLK3、F10和PROS1)取得了一些改进。

基于蛋白质的模型在预测10年发病率时,限制随访时间至5年,性能仍然保持良好,而临床模型在5年内的表现系统性较低。


总 结

总的来说,该研究证明了将稀疏血浆蛋白质特征与EHRs(电子健康档案)结合在一起,可以在常见和罕见疾病的预测方面提供新的、改进的预测,优于标准临床检验,通过特异性蛋白质和跨多种疾病的蛋白质预测因子。

不过,该研究也存在一些局限性。例如,研究结果需要在外部研究中验证,包括在不同种族和不同疾病预检概率的群体中(UKB有健康参与者效应(healthy participant effect))。其次,尽管该研究报告了迄今为止最大的蛋白质组学实验,但需要更大的样本量来估计罕见疾病的检测率和较短的临床相关时间框架(如1-5年),等等。


点此查看论文链接

 

 

问询(英文)

公众号