OpenMS 3:实现大规模质谱数据的可重复分析

阅读量 :1055

上月,德国图宾根大学(University of Tuebingen)Timo Sachsenberg 团队在 Nature Methods 发表了通讯文章:OpenMS 3 enables reproducible analysis of large-scale mass spectrometry data

文章总结了开源质谱数据分析平台 OpenMS 3 的新功能和变化,该版本将质谱数据处理扩展到了多个生命科学领域,包括蛋白质组学、代谢组学、结构生物学和寡核苷酸质谱学,并通过现代化的Python接口和改进的文档使计算方法使其更易于使用。

以下为文章全文。

 

质谱技术(MS)已成为生命科学中不可或缺的分析方法。在过去的二十多年里,OpenMS开源项目一直在帮助质谱学家进行数据处理。在第三个版本中,OpenMS将其能力扩展到除了自下而上(bottom-up)蛋白质组学之外的高通量workflow,包括自上而下(top-down)的蛋白质组学、代谢组学、结构生物学和寡核苷酸质谱(oligonucleotide mass spectrometry)。

OpenMS使研究人员可以利用新兴领域的分析,增强了计算工作流程,并提供了重新设计的Python接口,让生物信息学家和数据科学家能更好使用计算方法(图1)。

图1 OpenMS

为了帮助新用户探索并快速掌握OpenMS的使用,此版本的网站和文档进行了一些改进。该概述基于自2015年上次主要发布以来超过20,000次Git提交,由150多位开发者共同贡献。

OpenMS框架为开发者和用户提供了一套全面的与质谱相关的算法和模块化工具,这些算法和模块化工具采用开放标准文件格式来实现互操作性。即用型工作流程允许用户分析其数据,同时开发者可以使用C++(OpenMS C++库)或Python(pyOpenMS)为所有主要平台(Windows、Linux和macOS)创建自定义工作流程并编写新的工具和算法。宽松的BSD许可证鼓励学术和商业使用,并促进其整合到其他项目中。

OpenMS和pyOpenMS的源代码公开托管在GitHub上,持续集成、测试和代码审查确保贡献达到高质量标准。开发者和用户之间的沟通通过各种在线渠道和年度会议来促进。OpenMS库在所有主要平台上提供原生和现代的C++编译器支持。该库的一部分是可扩展的图形用户界面模块,它构成了强大的数据查看器的基础。

基于C++库构建的pyOpenMS,利用Python脚本语言访问算法和数据结构,从而实现与数据科学、机器学习和可视化Python库的无缝交互。非专业人员可轻松使用pip或Conda安装pyOpenMS,并开始使用我们修订后的文档和示例构建脚本。通过Python扩展访问OpenMS算法和数据结构的重要部分,使开发者能够快速原型化算法并用于教学目的。此外,最近开发的用Python编写的Web应用程序模板简化了图形用户界面应用程序的部署。我们现在简要概述主要发展和面向用户的变化。

在自下而上的蛋白质组学领域,我们扩展了对非标记和同位素标记定量(isobaric labeling quantification)的支持。现有的数据非依赖性采集(DIA)分析工具已经扩展到支持高效的文件格式和离子淌度数据。在结构蛋白质组学方面,我们新增了一款灵敏的蛋白质-蛋白质交联搜索引擎。此外,OpenMS 3推出了FLASH套件,用于自上而下的蛋白质组学,其功能包括对MS和MS谱解卷积(比其他最先进的工具快数个数量级)、新的仪器采集控制工具,以及自上而下质谱数据的非标记定量工具。

在代谢组学方面,OpenMS 3提供了增强的特征识别功能,可与 SIRIUS5 接口进行公式和结构预测,增加了DIA代谢组学工具,并支持GNPS(全球天然产物分子网络)的文件导出。OpenMS 3提供了新的质量控制工具,用于监测实验、数据采集和蛋白质组学或代谢组学特定分析。质量指标可以HUPO-PSI mzQC格式导出。在寡核苷酸质谱领域,我们新增了一款用于RNA或DNA寡核苷酸MS谱的搜索引擎,可实现序列和转录后修饰的鉴定。

OpenMS是更广泛的开源生态系统的一部分,该生态系统包括具有互补功能的工具和工作流程。通过添加写入所需文件格式的导出器或简化使用pyOpenMS导出Pandas DataFrames,改进了与多个用于统计下游处理的软件包的互操作性。OpenMS库不仅受益于现有的生态系统,而且还被纳入其他开源项目中。一个显著的例子是用于定性发现和定量验证实验的SmartPeak软件,该软件利用OpenMS进行准确定量、校准曲线拟合和质量控制。

对于高通量环境(如核心设施或工业领域),OpenMS工具可以组装成支持更广泛工作流程管理器的pipeline。许多工具已经针对在集群或云环境中的并行执行进行了优化。

随着质谱技术在更大规模和更多样化类型的实验中的应用,软件工具跟上技术的步伐至关重要。自上一个主要的OpenMS版本2发布以来,新兴或复兴领域的新方法一直由充满活力的社区推动,该社区通过协作和开放的方式将来自不同领域的研究人员联系在一起。我们的愿景是在这些核心价值观的基础上,为科学界服务并延续未来几十年的发展。

所有OpenMS源代码均可在GitHub上获得:
https://github.com/OpenMS/OpenMS

文章链接:
https://www.nature.com/articles/s41592-024-02197-7

OpenMS 更多介绍,请参见:

https://www.nature.com/articles/nmeth.3959

 

问询(中文)

公众号