欧米合作|Nat Comm:西湖大学郭天南团队联合开发AI赋能的蛋白质组分析质控新方法

阅读量 :94

2025年1月21日,西湖大学医学院 / 生命科学学院 / 西湖实验室 / 未来产业研究中心 / 西湖大学蛋白质组复杂科学实验室郭天南团队,联合国家蛋白质科学中心(北京)贺福初院士团队、中国计量科学研究院、浙江省农业科学院、广州医科大学、浙江大学、华中农业大学等多个实验室/课题组,在 Nature Communications 上发表了题为 iDIA-QC: AI-empowered data-independent acquisition mass spectrometry-based quality control 的研究成果。

研究提出了一种AI赋能的基于数据非依赖采集 (DIA)模式的质谱(MS)数据质控新策略,融合机器学习技术,为多质谱并行、跨实验室、大规模的蛋白质组数据采集提供了一种智能、高效、精准的质量控制方法,并开发了相应的软件工具iDIA-QC。

西湖欧米负责该研究的模型训练及软件开发。

图1 文章截图

随着质谱技术的快速发展,基于DIA MS技术的高通量定量蛋白质组学已成为生物医学研究中不可或缺的一部分。从研究方法上,质量控制(QC)是确保整个流程数据可靠性和重现性的不可或缺的关键步骤。而传统的质控方法主要依赖于通过数据依赖采集(DDA)的策略分析标准样品,但这种方法存在一定的局限性,无论是从灵敏性还是准确性上都无法满足大规模、高通量定量蛋白质组学的要求。

针对这一问题,本研究首先提出了基于DIA模式的液质联用的质控指标。在此基础上,西湖大学蛋白质组复杂科学实验室使用本实验室开发的适合复杂体系组学检测的标准品,联合全国数个实验室,在21台质谱进行了最长近三年的DIA-MS质控数据采集。

通过对这些DIA文件进行标注,并结合质控指标,本研究最终开发了一种AI模型iDIA-QC,实现了对多中心大队列蛋白质组学的全流程LC-MS分析的实时、精准、智能、高效的质控和预警。

 

01
联合全国9个实验室的21台质谱开展长达2.6年的质控监测

在这项研究中,西湖大学蛋白质组复杂科学实验室建立了一个基于小鼠肝脏酶切后的肽段的标准样品,称为 “西湖鼠肝多肽标准品”(Westlake Mouse Liver Digests, WMLD)。这些WMLD样品采用统一的流程处理分装,分发到西湖大学、国家蛋白质科学中心(北京)、广州医科大学、浙江大学、华中农业大学等国内九个不同的实验单位。

他们对这九个实验室的21台质谱仪进行了最高长达2.6年的检测,涵盖了Orbitrap、TripleTOF和timsTOF Pro等质谱设备。这些仪器共产生了2638对DDA和DIA质谱文件。在这个过程中,他们还详细记录了多达785次对LC-MS的维护操作。

图2 Westlake Mouse Liver Digests(WMLD)样本

西湖大学蛋白质组复杂科学实验室基于文献报道和实践操作,筛选出15个关键的特征,用于全面、精炼地评价原始质谱文件的质量。同时,他们还邀请了来自10个实验室(西湖大学,国家蛋白质科学中心、中国计量科学研究院、广州医科大学、浙江省农业科学院等)的21位质谱领域的专业人员,对2638个DIA MS数据集从15个关键特征的层面进行原始文件标注。

之后,西湖大学蛋白质组复杂科学实验室在四款主流的七台质谱中采集了221个小鼠肝脏肽段样本(独立数据集),并分析了这221个DIA MS文件中稳定鉴定到的肽段离子。

以肽段离子的物理化学性质为标准,研究者进一步筛选出来934条肽段离子。结合经过标记后的这2638个DIA文件,以及934个稳健的肽段离子,西湖大学蛋白质组复杂科学实验室提出了一种基于DIA模式的质谱数据质控新策略,并在此基础上建立了机器学习模型。

图3 实验设计

 

02
相较于DDA质控,DIA质控在LC-MS系统故障检测中展现出更高的灵敏度

在以往研究中,质谱数据采集的质量监测主要依赖于从DDA数据中提取的肽段和蛋白质的鉴定数量等指标。因此,本研究首先选择了DDA和DIA两者共有的常用指标,包括肽段鉴定数目、蛋白质鉴定数目以及质谱信号等,用于评价质控文件质量。

西湖大学蛋白质组复杂科学实验室团队随机选择了一台QE HF-X质谱仪,并从其280天的监测数据中挑选了四个包含常规维护操作的代表性时间段,每个时间段持续30至40天。

数据分析结果显示,总体而言,尽管DDA和DIA的指标总体上保持一致,但基于DIA的QC在检测各类系统故障方面显示出了更高的灵敏度。

此外,本研究中发现,在DDA中,相较于QC文件中的肽段和蛋白质的鉴定数量,肽段的一级母离子的MS1信号能够更敏感地反映仪器的性能。与之类似,在DIA文件中,来自肽段一级母离子和二级碎片离子的MS信号的敏感度也优于肽段和蛋白质的鉴定数目。

图4 DIA指标在LC-MS系统故障检测中比DDA指标具有更高的灵敏度

 

03
质控文件评价指标的优化与2638个DIA文件标注

在本研究中,西湖大学蛋白质组复杂科学实验室系统考察了涉及文献发表的141个性能指标(包括DDA、SRM和DIA数据),他们从这些指标中筛选了13个有代表性的特征,并额外引入了两个新指标——母离子色谱图和离子淌度准确度,最终确定了15个与LC-MS系统的五个关键特征相匹配的指标,覆盖了色谱性能、离子源、MS1和MS2扫描、鉴定及定量等方面。

他们构建了桑基图来揭示这些指标与仪器常见故障之间的联系,结果证实这15个指标的综合应用能够有效识别所有LC-MS系统的故障。

基于这些挑选的性能指标,21位来自不同机构的质谱专业人员对2638个DIA MS原始文件进行了细致的手动标注。每个DIA文件都经过4至5位拥有丰富实践经验的专家独立评审,并依据这些指标文件被分类为合格或不合格。

同时,研究人员们还对每个文件的LC和MS整体状态进行合格性评估。然后,采用 “观察一致性” 算法,并结合少数服从多数的机制来确定每个文件的最终标签。

在评审过程中,团队随机选取11个DIA文件进行了双盲重复标注,结果显示双盲重复标注的 “观察一致性” 中位值达到了100%,这证明了文件评估流程中具有极高的一致性。

图5 用于评价原始文件性能指标的筛选

图6 原始文件的标注和评估

 

04
开发基于DIA的QC分类器和软件工具

在基于DIA的QC分类器的研究中,西湖大学蛋白质组复杂科学实验室从小鼠肝脏的221个酶切肽段样本的鉴定结果中筛选出934个高质肽段离子,这些肽段离子在多种质谱仪中展现出具有稳健的鉴定能力。

利用XGBoost机器学习算法和五折交叉验证,他们从这些肽段离子中提取了33个肽段离子作为关键特征,并构建了能够区分DIA文件 “合格” 或 “不合格” 的分别针对LC性能和MS性能的独立分类器。独立测试集的LC模型的AUC达到了0.91,MS模型的AUC高达0.97,充分证明了这些模型的高效性和实用性。

此外,通过对另外一套包含116个DIA数据集的额外验证,他们进一步确认了模型的稳定性和准确性。这些成果为基于质谱的多中心、大规模蛋白质组学研究提供了强有力的质控工具。

为了验证这33个选定肽段离子在实际应用中的稳定性,西湖大学蛋白质组复杂科学实验室进行了独立的长期监测实验。在31天的时间内,他们使用TripleTOF 5600+对WMLD样本进行了DIA分析,监测肽段离子的保留时间、GRAVY值和变异系数(CV)。

结果显示,这些肽段离子的保留时间跨度从7.67到33.07分钟,GRAVY值范围在-1.97到1.83之间,表明它们具有广泛的色谱分布特性。肽段离子的CV中位数为2.9%,平均CV为3.5%,这些数据也证明了这些肽段离子的稳定性。

最终,西湖大学蛋白质组复杂科学实验室开发了一款名为iDIA-QC的软件工具,专门设计用于评估针对小鼠肝脏肽段样本的DIA数据的质量控制。它利用机器学习模型,从DIA文件中提取关键指标,快速分析并输出综合报告。iDIA-QC不仅能够判断液相色谱(LC)和质谱(MS)系统是否合格,还能提供故障诊断指导,帮助用户识别潜在问题。

该工具支持多种数据格式,包括.raw、.d和.wiff等原始质谱数据格式,并且能够为生成的文件分配仪器ID,增加了其灵活性和适用性。iDIA-QC的用户友好输出包括HTML报告和矩阵,易于使用,无需额外的统计软件支持。

iDIA-QC不仅能够报告LC和MS系统是否合格,更重要的是,它还能指出潜在的故障原因,为仪器操作人员进行质控维护提供有力的技术指导和支持。

图7 机器学习建立LC-MS数据评价质量分析器

 

本研究针对大规模定量蛋白质组大数据产生的过程,开发了AI驱动的iDIA-QC质控模型,可用于有效监测LC-MS运行过程中产生的蛋白质组学数据的质量和稳定性,为多中心、多机器、高通量、大队列样品的定量蛋白质组分析提供了质量保障。

文章中也指出了iDIA-QC研究目前存在的局限性。首先,本研究未涵盖所有类型的LC和MS仪器,尤其是新出现的仪器,因而iDIA-QC需要进一步扩展以评估更多仪器的性能。其次,尽管独立验证集的AUC值均高于90%,但模型在更广泛数据集和不同条件下的性能仍需进一步验证。

此外,虽然iDIA-QC软件工具能够评估原始DIA文件的质量并提供潜在故障原因的指导,但其普适性和在不同实验室环境下的有效性还需要在未来的研究中进行全面的测试和验证。

点此查看论文链接

 

问询(中文)

公众号