AI的魔力：重塑药物发现与开发的新途径

基于人工智能（Artificial intelligence，AI）的语言模型（Language models，LMs）可以预测词汇、理解语言，改变了自然语言处理（Natural language processing，NLP）领域。文本数据作为药物发现和开发过程的重要信息来源，将AI驱动的LMs转移到药物研发过程中，有助于科研人员更好地理解数据特征，提供了加速药物发现的可能性。

2021年，FDA/NCTR生物信息学和生物统计学部门主任Weida Tong和AI研究团队技术负责人Zhichao Liu作为共同通讯作者，联合团队中其他成员，在ELSEVIER旗下Drug Discovery Today杂志发表了综述性文章AI-based language models powering drug discovery and development。

在文章中，作者介绍了AI驱动的LMs的研究进展和在药物发现和开发中的潜力（图1），强调了AI驱动下的LMs在靶点识别、临床试验监管决策和药物监测方面的机会。作者还介绍了AI动力下的LMs在治疗新冠感染中的潜在应用。

图1 药物发现和开发中的人工智能（AI）驱动语言模型

♦ AI语言翻译官

基于Transformer的LMs，其核心是通过自注意力机制（Self-attention）和位置编码（Positional encoding）进行序列到序列学习（Seq2Seq）。该语言模型的出现，改变了处理文本数据的方式，显示出了在信息检索、文本分类、文本总结和情感分析中的巨大潜力^[1]。

基于Transformer的LMs能够模拟人类的一些特征，如持续获取、微调和转移知识与技能（图2）。该模型可以提供一个迁移学习框架，将获取到的知识储存在一个预训练模型中，以供进一步模型训练；针对特定领域的知识或任务，可以对预训练的LMs加入一个微调层进行微调，创建最合适最先进的NLP模型；与人类相似的是，基于Transformer的LMs能够总结不同文档中所嵌入的知识，已经有证据表明该模型可以生成流畅连贯的句子段落，可以通过多文档摘要的方式创造整篇维基百科文章^[2,3]。（注：2021年时，无论是GPT还是BERT都尚未像今天这样受人关注。）

图2 AI驱动的LMs与人类智能对比

♦ AI的挑选秘籍：寻找合适的AI语言模型

基于Transformer的LMs的多样性，极大地增强了处理各种实际应用中非结构化文本的能力。然而，在生物医学应用背景下选择和重新定位基于Transformer的LMs非常具有挑战性，关键步骤是“定义目的”“管理数据的可用性”和“衡量可扩展性”。

AI驱动的LMs在药物发现和开发的各个阶段都具有潜力，但公司和研发者在不同的阶段和不同的角度下，需求不尽相同。所以在寻求合适的AI解决方案之前，定义目的至关重要。

训练基于AI的LMs需要大量的文本。除公开的预训练的LMs使用一般的知识训练外，一些特定领域的LMs，如生物医学领域的BioBERT^[14]和ClinicalBERT^[4]，通过使用公开可用的生物医学文献或去标识的电子健康记录（Electronic Health Records，EHRs）来增强临床应用。然而，在模型训练过程中，仍然需要大量的有标注的数据；而且，在药物发现和开发过程中产生的数据对公司来说可能是敏感的，所以在选择合适的LM之前，明确了解数据可用性和策划标注数据所需的工作量非常重要。

基于Transformer的LMs性能提升源于数据和模型规模的增加、计算能力或训练过程的提高。当AI驱动的LMs用于患者监测时，为了满足实时数据收集和分析的需求，得到更快的推理速度是模型训练过程中最重要的目标；如果AI驱动的LMs旨在从临床记录中识别潜在的不良事件，那么更强的计算能力是模型训练中的首要目的；针对复杂的药物发现和开发任务（如患者招募），将多个模型应用于任务中，采用共识的方法更有可能改善病人的匹配情况。

♦ AI探药：语言模型在药物发现中的应用

AI在药物发现和开发中具有巨大潜力。在本文中，作者还介绍了AI驱动的LMs在靶点发现、临床试验，监管决策和上市后监测这4个阶段的潜在机会。

靶点发现是药物发现过程中关键的步骤之一，使用AI驱动的LMs可以推进药物发现进程，加速靶点的识别。首先，使用自动生物医学命名实体识别（BioNER）——一种在大型生物医学语料库上预训练的LM，可以发现隐藏在自由文本文档中的化学物质、基因、靶点和疾病之间的关系^[5]；其次，应用AI动力下的LMs，可以从生物医学文献中总结关键信息，推进靶点识别；第三，将简化分子输入线性系统（SMILES）应用到基于Transformer的LMs中，如SMILES Transformer，可以将化学分子的SIMILES形式关联到不同物理化学特征、治疗性靶点和毒性预测信息；最后，AI驱动的LMs具有评估未满足的医疗需求并为高通量筛选（High-throughput screening，HTS）提供优先级靶点的潜力。

在新药研发过程中，临床试验成本高、耗时长、失败率高，一部分原因在于患者群选择不理想、无效的患者招募策略和不成熟的患者监测系统^[6,7]。各种基于文本的数据集，包括电子健康记录 (EHR) 、临床试验数据库、试验公告、资格数据库、社交媒体和医学文献，为AI驱动的LM提供了一个独特而直接的入口，以改善临床试验结果^[8]。AI驱动的LMs，可以通过学习医学术语及其同义词、与其他新兴技术结合，将招募标准综合成标准化的上下文查询，改善临床试验匹配过程，实现患者招募过程的自动化，减轻人工工作量。数字健康技术，如可穿戴设备、语音技术和计算机视觉，使远程患者监测成为可能^[9]。AI和机器学习（特别是深度学习模型）可以用于实时患者监测，检测和记录相关信息^[10,11]。

按规定，制药公司需给卫生监管机构发送合规证据档案。相关的医务人员不仅要审查提交的文件，还要考虑到历史数据和相关文件，以产生证据并支持决策，这是一个复杂而耗时的过程。AI驱动的LMs可以促进监管文件的编码，以便更有效地审查、传递和调用信息。除此之外，将AI应用于语义搜索引擎，还可以提高信息检索的有效性，为审查员提取最相关的资料^[12]。

上市后监测是药物警戒科学的重要组成部分，其监测数据主要来自：1）自愿报告的病例或科学文献；2）观察性研究；3）主动监测。AI 动力下的语言模型已被证明对改进药品 - 不良事件关联性检测和解析不良事件（Adverse event，AE）与临床参数之间的因果关系非常有用^[13,14]。

♦ AI驱动模型与新冠研究

值得一提的是，在新冠研究领域AI也有“用武之地”。新冠大流行期间，研究人员发表了大量相关文献，但同时也带来了检索、阅读困难的新问题，学者难以靠人力去阅读所有文献。

AI驱动的搜索引擎的出现，可帮助研究人员浏览文献以解决对应的问题^[15]。截至目前，已开发和使用了有50多个搜索和发现工具，用于各种类型分析，如药物再利用、与其他疾病的相互作用感染、不同人口群体的死亡率和管理政策等^[16]。将基于AI的LMs用于新冠感染的治疗药物中，不仅可以提取候选药物与不良反应事件之间的关系，还可以提取候选药物与其他预防药物之间的潜在的相互作用（DDls）^[17]。

图3 加速新型冠状病毒（COVID-19）治疗开发的人工智能（AI）驱动语言模型

总之，人工智能语言模型已被广泛应用于生物医学科学的许多领域。该论文总结了AI驱动的LMs面临的机遇和挑战，以激发业界的努力，进行进一步的评估，并在药物发现和开发中更好地定位和促进AI驱动的LMs。

原文链接：https://www.sciencedirect.com/science/article/pii/S1359644621002816

本文作者：于洁

审校：张程

参考文献：

[1] Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[C]. Proceedings of the 31st International Conference on Neural Information Processing Systems, 2017: 6000–6010.

[2] Parisi G I, Kemker R, Part J L, et al. Continual lifelong learning with neural networks: A review[J]. Neural Networks, 2019, 113: 54-71.

[3] Liu P J, Saleh M, Pot E, et al. Generating Wikipedia by Summarizing Long Sequences[J], 2018, abs/1801.10198.

[4] Huang K, Altosaar J, Ranganath R J A. ClinicalBERT: Modeling Clinical Notes and Predicting Hospital Readmission[J], 2019, abs/1904.05342.

[5] Giorgi J M, Bader G D. Towards reliable named entity recognition in the biomedical domain[J]. Bioinformatics, 2019, 36(1): 280-286.

[6] Scannell J W, Blanckley A, Boldon H, et al. Diagnosing the decline in pharmaceutical R&D efficiency[J]. Nature Reviews Drug Discovery, 2012, 11(3): 191-200.

[7] Fogel D B. Factors associated with clinical trials that fail and opportunities for improving the likelihood of success: A review[J]. Contemporary Clinical Trials Communications, 2018, 11: 156-164.

[8] Harrer S, Shah P, Antony B, et al. Artificial Intelligence for Clinical Trial Design[J]. Trends in Pharmacological Sciences, 2019, 40(8): 577-591.

[9] Steinhubl S R, Wolff-Hughes D L, Nilsen W, et al. Digital clinical trials: creating a vision for the future[J]. npj Digital Medicine, 2019, 2(1): 126.

[10] Liu Y, Chen P C, Krause J, et al. How to Read Articles That Use Machine Learning: Users' Guides to the Medical Literature[J]. Jama, 2019, 322(18): 1806-1816.

[11] Sim I. Mobile Devices and Health[J], 2019, 381(10): 956-968.

[12] Fiorini N, Leaman R, Lipman D J, et al. How user intelligence is improving PubMed[J]. Nature Biotechnology, 2018, 36(10): 937-945.

[13] Fan B, Fan W, Smith C, et al. Adverse drug event detection and extraction from open data: A deep learning approach[J]. Information Processing & Management, 2020, 57(1): 102131.

[14] Biseda B, Mo K. Enhancing Pharmacovigilance with Drug Reviews and Social Media[M]. 2020.

[15] Tang W, Cao Z, Han M, et al. Hydroxychloroquine in patients with mainly mild to moderate coronavirus disease 2019: open label, randomised controlled trial[J], 2020, 369: m1849.

[16] Brainard J. New tools aim to tame pandemic paper tsunami[J], 2020, 368(6494): 924-925.

[17] Zhang T, Leng J, Liu Y. Deep learning for drug-drug interaction extraction from the literature: a review[J]. Brief Bioinform, 2020, 21(5): 1609-1627.