8月13日,西湖大学医学院郭天南团队,联合浙江大学医学院附属第二医院邵营宽、袁长征,西京医院聂勇战团队,共同在 Cell Discovery 发表了通讯文章 Prediction of overall survival in stage II and III colon cancer through machine learning of rapidly-acquired proteomics,开发了一种基于蛋白质组数据的结肠癌患者高低危风险的分类模型。
图1 论文截图
- 提纲挈领 -
目前结肠癌TNM分类下II期临床高危患者和III期患者进行辅助化疗,缺乏精准生物标志物指导。研究通过收集230例II期和III期结肠癌患者的蛋白质组学和临床数据,使用LASSO回归筛选出9种关键蛋白质,结合临床特征建立了预测结肠癌高低风险的模型。研究结果显示,结合蛋白质组和临床特征的模型在训练集中预测5年生存率的AUC值达到0.926,在外部验证集中为0.872,显著优于单一临床模型或蛋白质模型。该模型有效地将患者分为低风险组(训练集5年生存率95%,验证集93%)和高风险组(训练集39%,验证集53%),为结肠癌患者的个性化治疗提供了重要依据。
研究共招募了230名来自浙江大学附属第二医院(SAHZU)的患者作为训练集,以及58名来自西京医院(XJH)的患者作为外部验证集。所有患者均接受了根治性手术,并进行了超过5年的随访。
研究人员利用压力循环技术(PCT)和数据非依赖性采集质谱(DIA-MS)对福尔马林固定石蜡包埋(FFPE)的手术标本进行蛋白质组学分析,识别并量化了8187个 protein groups 和6256个蛋白质。
随后,使用基于LASSO回归等的机器学习算法,从蛋白质组中选取了九种蛋白质(PDP1、ALR、ENOG、NPC2、FYCO1、STXB1、ARH40、RIMC1、MTMR5),并与临床特征结合,用于构建预后模型,以预测5年生存率。
结合蛋白质组和临床特征的模型在训练集中的AUC值从临床模型的0.707和蛋白质模型的0.872提升至0.926;在验证集中的AUC值从临床模型的0.786和蛋白质模型的0.789提升至0.872。结合模型的敏感性、特异性、阳性预测值、阴性预测值、总体准确性和F1分数(F1-score)均有所提高。
结合模型,研究人员能够将患者稳健地分为低风险和高风险组,训练集中5年生存率分别为95%和39%,验证集中则为93%和53%。
文章还有新的发现。在选定的九种蛋白质中,八种蛋白质在生存超过5年的患者中下调,与不良预后相关,而仅MTMR5蛋白质上调,且与良好预后相关。此外,PDP1、ALR、ENOG和NPC2与结肠癌进展中具有重要作用。
该研究也存在一些局限性。由于验证集样本量较小,预后模型需要在其他独立队列中进行更多验证和校准。研究团队计划开展临床试验,进一步验证该模型,以改进预后预测,并辅助制定合理的随访计划和风险适应性个性化治疗方案。
延伸阅读
西湖大学医学院郭天南团队同浙江大学医学院附属第二医院肿瘤研究所一直致力于结直肠癌的研究。
2020年,该合作团队(郑树、郭天南、邵营宽)在 Journal of Extracellular Vesicles(IF:15.5)发文,提出了一种基于循环细胞外囊泡(crEVs)的新型结直肠癌(CRC)筛查工具。
研究团队通过DIA-MS识别了结直肠癌患者血浆中的候选生物标志物,特别是纤维蛋白原α链(FGA)阳性的crEVs。研究发现,这些FGA+ crEVs在结直肠癌的早期阶段能够有效区分癌症患者和健康个体,其诊断性能优于传统肿瘤标志物。研究开发了一种快速、非侵入性的CRC早期筛查方法,具有潜在的临床应用前景。
2021年,西湖大学郭天南团队联合浙江大学医学院邵吉民、郑树团队在 Cancer Communications(IF:20.1)发文。
应用压力循环技术(PCT)与数据非依赖式采集质谱(DIA-MS)相结合,对结直肠癌肿瘤组织FFPE样本进行深度蛋白质组学分析,表征了与结直肠癌发生和进展相关的蛋白质组动力学,并确定了新的潜在治疗靶点(PLOD2)以阻断致癌过程。
2023年,浙江大学医学院附属第二医院王健、邵营宽、郑树团队,山东第一医科大学附属肿瘤医院李宝生团队,同西湖大学郭天南团队等联合在 Cancer Letters(IF:9.1)发文。
研究采用PCT-PulseDIA,对来自两家医院的58名局部晚期直肠癌(LARC)患者的新辅助放化疗(nCRT)前活检组织中6483个高置信度蛋白质的丰度进行了定量。研究揭示了nCRT前LARC患者的蛋白质组学特征,并强调了实现pCR的患者肿瘤中的免疫激活。