—— 欧米锐评人 林木
文章来源、作者 | 智药局
ChatGPT在全球掀起了一阵技术飓风,其背后的大型语言模型(LLM)也引起了各方关注。
而这仅是AI赋能生命科学的一个方面。
近年来,以Alphafold2、RoseTTAFold、ESMFold为代表的蛋白质结构预测模型,Emerald、RoboRXN等云端实验室一类的AI技术正在变革生命科学领域的传统范式。
在这个过程中,上述三大技术将不可避免的交汇在一起,最终产生1+1+1>3的效果。
前途是光明的,但前进的道路需要一步步摸索。
我们如何才能深入理解这三种技术各自的内核?又如何将它们有机协同,从而加快科学研究的步伐?
♦ ChatGPT:向更科学的LSM进化
尽管ChatGPT的推出已经让全世界惊讶于AI的先进,但对生命科学来说,这样的大语言模型还谈不上 “科学”。
GPT-3的训练数据中只有3%来自维基百科,其余都是来自鱼龙混杂的互联网,故而ChatGPT有时的 “胡言乱语” 并不足奇。
要进一步提升这类技术的准确度以使研究人员获得可靠帮助,我们需要寻找新的、高质量的信息并将其 “喂” 给强大的计算模型。
幸运的是,我们拥有足够庞大的科学数据库(SciHub收录了8800万篇论文,且数量还在不断增长)供模型们学习,通过挖掘所有的科学文献以创建大型科学模型(LSM)成为可能。
那么假设有一个可公开访问的LSM,我们可以用它做什么?
正如LLM的一个强大的特性是它们可用于任务规划,LSM也可以通过将大问题分解为易于处理的项目或预测下一个项目来自动描述路线图。
此外,LSM如果与专业领域AI子系统配对,则可以在实验室中执行日常科学研究。这种动态类似于一个人类团队:领导负责项目战略,下属负责计划、执行,然后报告实验结果和建议的后续步骤。
♦ 云实验室,让机器人来帮忙
据统计,目前生命科学领域90%以上的工作流程都是手动完成,数据捕获方式差异极大、难以统一;即便如今已经进入自动化时代,90%的生物学家仍在手工进行移液操作。
依靠手工的实验方式不仅效率低下,且人为操作主观因素较多,最终影响数据的可靠性。
而新兴的云端实验室,作为一种高度自动化的集成研究实验室,科学家可以从远程位置的计算机上运行实验。科学家们通过一个在线界面进行编程,然后交由软件协调机器人和自动科学仪器来执行实验和处理数据。
机器人实验室通过简化传统的仪器和设备,让软、硬件无缝结合在一起工作,效率更高,并排除个别主观因素干扰,从而让科学家能获得可重复性更高的实验结果。
此外,机器人可以采集更为全面的数据,同时考虑数十个甚至更多维度及变量的数据,包括实验数据、设备数据、环境条件等,这些数据被汇总和分析后提供给研究人员。
此前,卡内基梅隆大学投资4000万美元与Emerald Cloud Lab合作建立位于匹兹堡的云实验室——这是第一个在大学里建设的云实验室。实验室于2021年11月开工,计划于2023年年中投入使用。
科学学院院长丽贝卡·多尔格(Rebecca Doerge)说,“使用云实验室一年的费用往往低于单件高端实验设备的价格,这种模式可能会带来变革。”
云端实验室代表了AI技术推动生命科学实验向自动化发展的新范例,从长远来看,该项技术被广泛应用几乎是必然。但我们也必须认识到短期的不确定性:目前,在将本地实验室转移到云实验室方面仍存在重大的观念和技术阻力。
♦ 分子性质预测,解锁无限可能
AlphaFold2预测超2亿个人源蛋白质结构,Meta的ESMFold紧随其后……科学家可以借此直接搜索蛋白质的3D结构和功能特征,开启了探索生命的巨幕。
通过AI预测包括结构、形状、反应性、稳定性、酶动力学、亲和力等许多分子特性,乍听起来很平常,但其实际意义重要得多。如果人类解决了分子尺度的预测挑战,则将进一步解锁虚拟测试和迭代的能力,大幅提高新药研发速度。
近年来,通过使用许多不同架构的生成模型(如变分自动编码器、生成对抗网络和递归神经网络)来设计和生成小分子,以从头生成分子,这一领域已经取得了实质性进展。
而推出以Alphafold2、RoseTTAFold、ESMFold为代表的蛋白质结构预测模型,证明了AI在大分子结构预测方面的能力:“以前确定一个蛋白质的三维结构需要数月或数年,现在只需要几秒钟。”
人类使用AI技术加速对分子的探索,从解决生命科学难题到深入研究生命起源本身,对一些重要的问题,例如环境问题、粮食安全和罕见疾病等,都会产生重大影响。
♦ 三大技术怎样有机结合?
由擅长规划和委派任务、分子计算和体力劳动的三种AI模型组成的三角关系中,不同技术的落地需求也不同:AI科学家需要数据,生物学家需要分析,机器人专家需要任务。
那么,怎样才能构成这一完整的循环关系?
下图进行了简要概述:LSM负责向云端实验室和分子预测发布指示命令,云端实验室为另外两端返回实验数据,而分子预测则分别向LSM和云端实验室提供已验证的解决方案和可供实验的分子。
这个金三角足以让AI科学家、结构生物学家和机器人专家齐聚一堂。
科学文献中有大量知识可供更加科学的LSM挖掘,像Emerald这样的云端实验室向我们展示了机器人可以缩短实验周期、加快迭代。Alphafold2则帮助科学家从数以亿计的蛋白质结构中,模拟筛选出最符合特定需求的那个。
而这个过程中,公用数据集的作用至关重要,如同现代工业不可缺少的石油一般。数据在三角关系中既是驱动力,也是维持协同工作的纽带。
♦ 社区协作的飞轮效应
到目前为止,我们讨论的所有内容都与技术有关,要将技术潜力真正转化为实际影响力,归根结底还是要依靠团队合作。
回顾历史,AI和生命科学都是标准的社会产物,几次里程碑式的飞跃都有赖于这些科学家团体在共同努力下所创造的窗口。
举一个著名的例子,当 Geoff Hinton 实验室的AlexNet论文成为2012年深度学习革命的基础时,不要忘了它是在开源工具和社区知识的大型基础设施上(尤其是围绕李飞飞的ImageNet数据集)发展起来的飞跃。
因此,与其问 “如何找到更多的 Geoff Hintons?”,倒不如问 “如何重建2010-2015年的计算机视觉社区?”,可能会更有成效。
从建设社区和优化生态角度来讲,以下几点建议很重要:
◊ 通用平台
开源计算库在这场革命中发挥了重要作用,使从业者能够非常轻松地对使用最先进的相同工具包进行研究。
◊ 云计算
如果某一构建的应用程序适用于一千人,那么它也可以为一百万人服务。
◊ 共同目标
在生物学中,我们有人类基因组计划和 CASP 蛋白质折叠预测挑战。在计算机科学中,像 ImageNet 这样的公共挑战有助汇集业内人士的努力并比较、借鉴。
◊ 开源精神
AI和生命科技的最佳实践是共享进展,以便大家都可以获得来自他人的反馈。
◊ 商业利益
我们需要更多的如Y Combinator(2005年创办,现任董事长为OpenAI 创始人Sam Altman)般卓越的科技创业孵化机构。
◊ 资金支持
做软件工作历来很便宜,但生物研究成本更高,需要大量可用资金。
—— 欧米锐评人 林木
文章来源、作者 | 智药局
ChatGPT在全球掀起了一阵技术飓风,其背后的大型语言模型(LLM)也引起了各方关注。
而这仅是AI赋能生命科学的一个方面。
近年来,以Alphafold2、RoseTTAFold、ESMFold为代表的蛋白质结构预测模型,Emerald、RoboRXN等云端实验室一类的AI技术正在变革生命科学领域的传统范式。
在这个过程中,上述三大技术将不可避免的交汇在一起,最终产生1+1+1>3的效果。
前途是光明的,但前进的道路需要一步步摸索。
我们如何才能深入理解这三种技术各自的内核?又如何将它们有机协同,从而加快科学研究的步伐?
♦ ChatGPT:向更科学的LSM进化
尽管ChatGPT的推出已经让全世界惊讶于AI的先进,但对生命科学来说,这样的大语言模型还谈不上 “科学”。
GPT-3的训练数据中只有3%来自维基百科,其余都是来自鱼龙混杂的互联网,故而ChatGPT有时的 “胡言乱语” 并不足奇。
要进一步提升这类技术的准确度以使研究人员获得可靠帮助,我们需要寻找新的、高质量的信息并将其 “喂” 给强大的计算模型。
幸运的是,我们拥有足够庞大的科学数据库(SciHub收录了8800万篇论文,且数量还在不断增长)供模型们学习,通过挖掘所有的科学文献以创建大型科学模型(LSM)成为可能。
那么假设有一个可公开访问的LSM,我们可以用它做什么?
正如LLM的一个强大的特性是它们可用于任务规划,LSM也可以通过将大问题分解为易于处理的项目或预测下一个项目来自动描述路线图。
此外,LSM如果与专业领域AI子系统配对,则可以在实验室中执行日常科学研究。这种动态类似于一个人类团队:领导负责项目战略,下属负责计划、执行,然后报告实验结果和建议的后续步骤。
♦ 云实验室,让机器人来帮忙
据统计,目前生命科学领域90%以上的工作流程都是手动完成,数据捕获方式差异极大、难以统一;即便如今已经进入自动化时代,90%的生物学家仍在手工进行移液操作。
依靠手工的实验方式不仅效率低下,且人为操作主观因素较多,最终影响数据的可靠性。
而新兴的云端实验室,作为一种高度自动化的集成研究实验室,科学家可以从远程位置的计算机上运行实验。科学家们通过一个在线界面进行编程,然后交由软件协调机器人和自动科学仪器来执行实验和处理数据。
机器人实验室通过简化传统的仪器和设备,让软、硬件无缝结合在一起工作,效率更高,并排除个别主观因素干扰,从而让科学家能获得可重复性更高的实验结果。
此外,机器人可以采集更为全面的数据,同时考虑数十个甚至更多维度及变量的数据,包括实验数据、设备数据、环境条件等,这些数据被汇总和分析后提供给研究人员。
此前,卡内基梅隆大学投资4000万美元与Emerald Cloud Lab合作建立位于匹兹堡的云实验室——这是第一个在大学里建设的云实验室。实验室于2021年11月开工,计划于2023年年中投入使用。
科学学院院长丽贝卡·多尔格(Rebecca Doerge)说,“使用云实验室一年的费用往往低于单件高端实验设备的价格,这种模式可能会带来变革。”
云端实验室代表了AI技术推动生命科学实验向自动化发展的新范例,从长远来看,该项技术被广泛应用几乎是必然。但我们也必须认识到短期的不确定性:目前,在将本地实验室转移到云实验室方面仍存在重大的观念和技术阻力。
♦ 分子性质预测,解锁无限可能
AlphaFold2预测超2亿个人源蛋白质结构,Meta的ESMFold紧随其后……科学家可以借此直接搜索蛋白质的3D结构和功能特征,开启了探索生命的巨幕。
通过AI预测包括结构、形状、反应性、稳定性、酶动力学、亲和力等许多分子特性,乍听起来很平常,但其实际意义重要得多。如果人类解决了分子尺度的预测挑战,则将进一步解锁虚拟测试和迭代的能力,大幅提高新药研发速度。
近年来,通过使用许多不同架构的生成模型(如变分自动编码器、生成对抗网络和递归神经网络)来设计和生成小分子,以从头生成分子,这一领域已经取得了实质性进展。
而推出以Alphafold2、RoseTTAFold、ESMFold为代表的蛋白质结构预测模型,证明了AI在大分子结构预测方面的能力:“以前确定一个蛋白质的三维结构需要数月或数年,现在只需要几秒钟。”
人类使用AI技术加速对分子的探索,从解决生命科学难题到深入研究生命起源本身,对一些重要的问题,例如环境问题、粮食安全和罕见疾病等,都会产生重大影响。
♦ 三大技术怎样有机结合?
由擅长规划和委派任务、分子计算和体力劳动的三种AI模型组成的三角关系中,不同技术的落地需求也不同:AI科学家需要数据,生物学家需要分析,机器人专家需要任务。
那么,怎样才能构成这一完整的循环关系?
下图进行了简要概述:LSM负责向云端实验室和分子预测发布指示命令,云端实验室为另外两端返回实验数据,而分子预测则分别向LSM和云端实验室提供已验证的解决方案和可供实验的分子。
这个金三角足以让AI科学家、结构生物学家和机器人专家齐聚一堂。
科学文献中有大量知识可供更加科学的LSM挖掘,像Emerald这样的云端实验室向我们展示了机器人可以缩短实验周期、加快迭代。Alphafold2则帮助科学家从数以亿计的蛋白质结构中,模拟筛选出最符合特定需求的那个。
而这个过程中,公用数据集的作用至关重要,如同现代工业不可缺少的石油一般。数据在三角关系中既是驱动力,也是维持协同工作的纽带。
♦ 社区协作的飞轮效应
到目前为止,我们讨论的所有内容都与技术有关,要将技术潜力真正转化为实际影响力,归根结底还是要依靠团队合作。
回顾历史,AI和生命科学都是标准的社会产物,几次里程碑式的飞跃都有赖于这些科学家团体在共同努力下所创造的窗口。
举一个著名的例子,当 Geoff Hinton 实验室的AlexNet论文成为2012年深度学习革命的基础时,不要忘了它是在开源工具和社区知识的大型基础设施上(尤其是围绕李飞飞的ImageNet数据集)发展起来的飞跃。
因此,与其问 “如何找到更多的 Geoff Hintons?”,倒不如问 “如何重建2010-2015年的计算机视觉社区?”,可能会更有成效。
从建设社区和优化生态角度来讲,以下几点建议很重要:
◊ 通用平台
开源计算库在这场革命中发挥了重要作用,使从业者能够非常轻松地对使用最先进的相同工具包进行研究。
◊ 云计算
如果某一构建的应用程序适用于一千人,那么它也可以为一百万人服务。
◊ 共同目标
在生物学中,我们有人类基因组计划和 CASP 蛋白质折叠预测挑战。在计算机科学中,像 ImageNet 这样的公共挑战有助汇集业内人士的努力并比较、借鉴。
◊ 开源精神
AI和生命科技的最佳实践是共享进展,以便大家都可以获得来自他人的反馈。
◊ 商业利益
我们需要更多的如Y Combinator(2005年创办,现任董事长为OpenAI 创始人Sam Altman)般卓越的科技创业孵化机构。
◊ 资金支持
做软件工作历来很便宜,但生物研究成本更高,需要大量可用资金。