Nat Comm|血清蛋白组学与机器学习揭示肝细胞癌早期诊断新路径

阅读量 :1329

原发性肝细胞癌(hepatocellular carcinoma,HCC)是全球癌症死亡的第四位原因,其主要风险因素是由乙型和丙型肝炎病毒引起的慢性肝硬化。然而,由于早期症状的缺乏,大多数患者在晚期临床阶段被诊断,导致预后不佳。

当前的HCC诊断策略包括影像学(CT/MRI)、血清蛋白生物标志物(AFP、PIVKA-II)和组织病理学,但由于经验性限制、受限的灵敏度或侵入性检测方法,难以准确诊断早期HCC。血清和血浆的例行收集在患有肝病症状的患者中,可以反映肝功能的变化,因此非常适合进行液体活检。因此,探索血清蛋白生物标志物进行早期诊断具有重要意义。

图1 论文截图

2023年12月18日,福建医科大学孟超肝胆医院 Xiaolong Liu、Liming Wu 团队、福建医科大学肿瘤临床医学院 Jingfeng Liu 团队合作在 Nature Communications 上发表了新的文章 Proteomics-driven noninvasive screening of circulating serum protein panels for the early diagnosis of hepatocellular carcinoma

文章通过整合血清蛋白质组学和机器学习方法,系统研究了原发性肝细胞癌早期诊断的潜在生物标志物,提供了一个多层次的、可行的HCC早期诊断模型,并在临床患者队列中进行了验证。

图2 生物标志物模型开发的总体实验设计

研究样本

发现队列包括320名个体,其中包括HCC(n=163)、肝硬化(LC,n=53)、基础肝病(BLD,n=64,其中包括16例慢性乙型肝炎(CHB)、18例酒精性肝病(ALD)和30例非酒精性脂肪肝病(NAFLD)样本)以及慢性无症状乙型肝炎病毒携带者(AsC,n=40)患者,用于DIA-MS定量蛋白质组学分析。

验证队列包括独立的回顾性验证队列(n=429,包括210名HCC患者、115名LC患者和104名健康对照(HC))以及独立的前瞻性验证队列(包括253名LC患者,其中36名在随访中发展为HCC)。


实验结果

1. 血清样本的蛋白质组学特征

研究人员使用基于 DIA-MS 的高通量蛋白质组学策略对血清样本进行蛋白质组分析。其中包含来自 DDA 的 128 份混合血清样本和来自 DIA 的 320 份单独血清样本,然后生成了一个包含 875 个蛋白质的混合谱库。DIA-MS分析检测到451种可定量的蛋白质,占谱库的一半以上。平均每个组中的单个血清样本可定量300至304种蛋白质,覆盖范围与先前研究相当。

图3 发现队列的血清蛋白质谱分析

2. 质谱平台和蛋白质组数据的评估

对质谱平台的质量控制表明,DDA-MS和DIA-MS的技术重现性高,表现出一致的质谱平台稳定性。研究人员在血清样本中发现了标准品中的 331 种蛋白质,相关系数与标准相当,证明了血清蛋白质组实验的定量准确性;通过技术重复分析六个血清样本,证明了实验的一致性和稳定性。四个组别的CVs(变异系数)值明显高于技术重复,揭示了患者内部的高度异质性,尤其是在LC组和HCC组。

3. 与HCC相关的蛋白质差异丰度和功能改变

为进一步筛选有意义的 HCC 诊断生物标志物,研究人员排除了201种免疫球蛋白,并确定了17种上调和17种下调的蛋白质,用于进一步分析。

这些蛋白质主要富集在细胞外间隙、细胞外囊泡、细胞外区域和血液微粒,这与血清蛋白的特征一致。这些异常表达的蛋白主要富集在免疫和炎症生物过程,以及与肿瘤发生和发展相关的多个受体激活和各种酶活性的分子功能。这些失调的蛋白质主要富集在免疫和炎症的生物过程中,以及与启动多种受体和涉及肿瘤发生发展的多种酶活性相关的分子功能中。

通路富集分析表明,这些蛋白主要与互补和凝血级联、NOD样受体信号通路、NF-kappa B信号通路、Toll样受体信号通路、TNF信号通路和白细胞跨内皮迁移等有关,提示HCC可能通过调节与免疫和炎症相关的多个受体或通路促进自身发展。

图4 与 HCC 相关的差异丰度蛋白质和功能改变

4.使用基于并行反应监测(PRM)的靶向蛋白质谱技术验证血清候选生物标志物

基于发现研究中揭示的的HCC相关蛋白质和功能变化,研究人员通过学习向量量化(LVQ)模型评估了34个与HCC相关的差异丰度蛋白质的诊断性能,并筛选出15个具有较高准确性的蛋白质。

最后,为了验证候选生物标志物的真实性,研究人员进一步通过PRM-MS在包含130名HCC患者、68名LC患者和61名HC个体的独立验证队列中验证了匹配肽段的丰度。结果显示其中有5种蛋白质能够在轻和重标签中的三对以上的离子中定量,与DIA-MS结果的趋势一致,因此这5五种蛋白质被用于构建不同组合的HCC诊断模型。

5. 基于机器学习的HCC分类

研究人员利用PRM定量数据,构建了一个随机森林预测模型,通过比较五个潜在生物标志物及其不同组合在验证集上的ROC曲线下面积(AUC),筛选出HABP2和CD163的组合在HCC与LC、HCC与HC之间具有较高性能。随后,构建了包含HABP2、CD163、AFP和PIVKA-II的4种蛋白质panel(P4 panel),P4 panel在不同临床分期均比AFP + PIVKA-II具有更高、更稳定的敏感性,特别是在早期HCC临床分期。

6. P4 panel对LC向HCC的转化进行准确预测

为了评估 P4 panel 在检测早期 HCC 方面的功效并与其他常用方法进行比较,研究人员在前瞻性临床队列中招募了 253 名 LC 患者,结果显示P4 panel 不仅能够更早、更准确地检测到发展为HCC的LC患者,而且具有比AFP、PIVKA-II、AFP+PIVKA-II、ASAP模型和aMAP得分更高的诊断性能。这些结果表明,P4 panel可能是比传统蛋白质生物标志物或其他基于评分的模型更好的LC患者转化为HCC的预测因子。

图5 P4模型在前瞻性验证队列中预测HCC高风险人群的性能

然而,该研究也存在一些局限性,包括仍需使用多中心和大规模前瞻性临床队列来验证模型的普遍性,以及未来研究中需要更多的健康个体样本来确认该方法的特异性。另外,尚需进一步测试 P4 panel 在临床例行中实现HCC的早期诊断的可行性。

总的来说,通过筛选和验证一系列血清蛋白质,该研究成功建立了一个对HCC早期诊断更准确的panel。P4 panel 表现出色,不仅在HCC患者中的诊断性能优越,而且对于转化为HCC的LC患者的早期预测也表现出很高的准确性。这些结果提示我们:基于蛋白质组学的血清生物标志物发现为液体活检提供了有价值的参考,并有望改善HCC的早期诊断。

文章链接:
https://www.nature.com/articles/s41467-023-44255-2

 

问询(中文)

公众号