人工智能用于药物设计必须要解决的五大挑战

编辑/文龙
人工智能系统还必须能够与人类专家互动和合作,以执行复杂的部分定义的任务。此外,如果在建议或预测本身的基础上提供了可理解的理由,那么基于AI的系统的使用也会受益。我们应该将AI视为合作伙伴而不是竞争对手。

人工智能(AI)正逐步被广泛用于药物研发中的各个阶段。有人认为这会带来新的机遇,但也有人对此持怀疑态度,等着看AI项目的笑话。现实则更像是介于两者之间,人工智能工具的介入可以为药物研发人员带来启发与效率,同时也给开发新药物的既定过程带来了新的挑战。

尽管人们对疾病生物学的理解有所进步,在技术上也取得了令人瞩目的飞跃,但将新药投入市场仍然是一个耗时且昂贵的过程,这在很大程度上是由于临床试验高失败比例带来的大量费用。因此,需要一些崭新的思路、新的药物发现过程以及其他创新的方法以较低的市场成本,为更多患者提供药物。在这种情况下,计算机辅助的小分子药物设计长期以来一直被认为是有竞争力的潜在候选人,而数据处理能力的提高和人工智能工具的发展更是推动了该领域前进。关键问题是这种方法是否可以帮助我们更快更好地设计出小分子候选药物。

在过去的二十年中,高通量筛选(HTS)推动了小分子药物的发现,选择最合适的经过实验验证的HTS命中数据进行随机访问对于药物研发的成功至关重要。在选择药物和进行后续优化时需要考虑许多参数,包括在所需药理学目标和潜在脱靶点间的效力和选择以及对药物药代动力学和安全性来说可能很重要的理化特性。因此,药物化学家通常面临具有挑战性的多目标优化(MOO)问题,其潜在的选择远远超出了系统探索的可能性,并有越来越多复杂的数据集需要分析。

因此,在药物设计中应用AI有吸引力的点在于,有可能开发数据驱动的隐式模型构建过程,以导航来自HTS的大量数据集并确定替代方案的优先级。这表明决策权正在向机器智能的部分转移,可以视为与人类智力协同作用,也就是说,特定领域的隐式AI可以增强药物化学家在药物设计和选择方面的能力。更有野心的使用AI进行药物设计是从头开始(de novo)自动生成具有所需特性的新化学实体(NCE),而无需通常价格昂贵的全套HTS。

为了取得长期的成功,使用AI的药物设计必须解决五个“重大挑战”:获取适当的数据集、产生新的假设、在多目标中进行优化方式、减少周期时间、改变研究文化并树立适当的心态。

2345截图20200908083720.png

将思维和机器整合在药物发现中

获取适当的数据集

适当的输入数据对于NCE的生成和决策建立有用的预测模型至关重要。如果没有适当的数据集以及对这些数据的范围和局限性的理解,那么即使是一个看似复杂的模型也将无法产生有用的结果。

在评估用于预测模型的数据时,最重要的因素之一是收集这些数据时是否考虑最终终点,如果没有考虑到,那么就可能会出问题。例如,许多研发小组建立了预测分子是否有毒的模型,因为可靠的毒理学模型可以减少药物发现的时间和成本以及减少动物测试的需求。但是,体内毒理学数据有限,因此许多毒理学模型都是基于替代体外结果建立的,在大多数情况下,这些体外结果与最终体内毒理学反应之间的关系尚未明确建立。除此之外,通常在药物研发中使用的动物模型与最终将在患者中看到的结果之间的关系也是有限的。

在许多情况下,基于先前设计的高通量实验的结果来构建的预测模型会为我们提供优势。但另一方面,由于在高通量分析的开发中做出的设计决策存在折衷,因此依赖现有的大规模数据可能会带来问题——为提高分析通量而进行的调整可能会减少其准确性。例如,全基因组脱靶筛选的灵敏度比预定的脱靶区域的分析低得多。为了使数据有用,必须清楚地理解用于捕获数据的实验环境及其与最终结果的相关性。

AI可以用于解决一些数据集间以及其内部不同程度的不确定性,进而生成更高质量的数据集,但需要适当的注释,以便在出现问题时可以找到元数据。虽然存在一定程度的自动注释(例如,生成和分析数据的机器通常会添加诸如时间和日期之类的元数据),但AI能够通过推断上下文确定数据起点并从自动检测可能的错误注释来减轻人工注释的负担。除此之外,用于语言翻译的AI技术能够在快速发展的术语中提供术语与术语之间的映射,并且基于AI的潜在变量概率模型已经能够从临床环境的多源数据集中提取相应含义。

使用实验数据建立预测模型时,不确定性的另一个来源是数据的意外误报数据,可能是简单的拼写错误或是数值记录错误,但一个或两个错误报告的数据点甚至可能会扭曲预测模型的结果。因此,数据管理和数据报告中潜在错误的识别是AI与药物研发相关的另一个可能的领域。当然,并非所有异常值都是错误,他们可能会提供一种新见解的替代性行动机制。我们搜索异常值或潜在错误的方式可能取决于构建模型的规模。

药物发现本质上是一个优化问题,从众多化合物中确定一种可行的用于生产。因此,药物研发数据集通常包含数十种测定的数据,但是由于时间和金钱的限制,分析过程通常缺少一部分的值。因为只有在更高通量的体外或细胞分析中表现良好的化合物才能在更昂贵的体内实验中进行测试,所以数据也不是完全随机丢失的。当从科学文献中获取数据时,这种不平衡可能会变得尤为严重,因为这些文献对负面结果的报道很少。

迄今为止,在AI方面最成功的领域是成像和自然语言处理(NLP)。这些数据与通常在药物研发中发现的数据大不相同,因为相比与准确标记“图像中有停车标志”来说,关于化合物是“对目标具有活性”还是“有毒”的问题要复杂得多,并且要贴上更具细微差别的标签。给定的药物研发项目为数据提供了背景,使项目成员能够从数据分析中得出结论。但是如果将此类数据汇总到多个项目或实验室中,则通常会丢失相关背景关系。与数据的可用性有关的另一个挑战是,在许多情况下实验无法生成可以简单转换为单个数值的数据。

在过去的二十年中,我们看到了许多包含数以百万计的生物学分析结果的公共数据库的出现,例如ChEMBL和PubChem,它们可以为机器学习模型提供输入数据,从而预测药物的各种生物学活性或理化性质。尽管这些数据库很有用,但这些数据仅是所测数据的一小部分,因为许多较大的数据集是制药公司或生产商专有,并且不能公开免费获得的。大多数公司将其数据视为竞争优势并密切加以保护。

2345截图20200908083720.png

产生新的假设

尽管有了HTS技术的进步,但在寻找新的治疗药物时我们仍只是抽取了很小一部分的类似药物的化学样本。2015年,可采用的化学空间包含约1.25亿种化合物,并且仍在增长。类似药物的化学空间的大小使得我们不可能进行详尽的枚举,因此药物设计从本质上可以归结为“下一步要做什么”这个核心问题。药物化学家通常从他们的经验中、从合成准则中、从人类的创造力和宽泛定义的“化学直觉”中汲取灵感。鉴于人类疾病的复杂性,在药物设计中采用更彻底的假设生成方法可能是有益的。

化学设计可以被认为是模式匹配,实际上,自1990年代以来,基于计算机的从头设计方法就已经被用作支持药物设计的思想生成器。然而,今天,生成型AI通过提供决策的统计框架,为从头设计药物提供了新的方法。与早期的分子设计机制采用一组显式的化学转化和组装规则相比,这些生成模型用隐含的方式显示化学知识。换句话说,不再是书本中的化学语言,而是从训练数据中学到的一种新规则。

这种方法值得进一步讨论,因为它直接涉及AI系统在化学中的可解释性问题。然而与先前的方法相比,该模型的主要优点是:执行速度(可以即时生成NCE以进行交互式建模);对现有项目进行快速再培训或微调;通过提供对几乎无限的化学空间的访问而无需显式化合物库枚举的可扩展性;软件可用性;和设计的综合可访问性。

药物设计将面临越来越复杂的数据和目标假设。药物研发过程的一个关键性限制因素是缺乏有关人类生物学的基本知识,随着研究过程中整个生命周期的不断发展,生物学分析往往会随着知识的发展而迅速变化。因此,随着药物研发知识的发展,人工智能需要更灵活地提供答案。另一方面,“机械”模型能够通过捕获不同级别(例如分子和细胞)的行为并提供有关这些行为如何演化和相互作用的解释来应对这些挑战。因此,利用提供新假设的此类模型和提供进一步数据以测试这些假设并改进模型的机器学习模型,形成了一个虚拟循环,该循环创建了完整的学习系统。

多目标优化

NCE的研发需要在设计过程中平衡多个标准,包括目标效能、选择性、清除率和渗透性。但是,针对某一属性进行优化可能会损害其他属性,这种潜在冲突目标的问题可以在多目标优化(MOO)的计算框架中提出并解决。

在计算机上MOO的设定中,需要为每个所需属性计算一组预测模型,然后应用到一个现有的MOO算法中尝试解决潜在优化问题,即找到一个或一组平衡所需属性的分子。由于这些属性经常发生冲突,因此目标是生成一组可能的解决方案,每个解决方案都以不同的方式进行权衡。可以认为这套解决方案是在找出最优性边界,沿着最优性边界移动会产生一组最优解,每个最优解都有其自身权衡性能的方式。

找到这样一个边界目标的实质是对缺失信息进行优化。如果我们确切地知道我们将如何权衡各个药物设计标准,则可以改用更常规的计算优化方法来找到一种对精确已知的权衡函数进行优化的分子。但是,药物研发和其他许多领域一样,开发过程是迭代出来的,而不是分析出来的,其根本上的“人在回路(human-in-the-loop)”在不久的将来也不太可能会消失。因此,MOO的目标是针对特定的分子设计生成一组不同的最佳解决方案,再将这些解决方案移交给人类专家进行决策。

神经网络是当前流行的一种预测模型,在视觉和音频方面,人们可以轻松获取大量标记数据,这些数据对于使用当前的深度神经网络取得成功至关重要,而生物学和化学领域的数据通常尚不足以使用这些神经网络。但是,机器学习领域正在积极寻求如何用更少的数据来做得更好,即“小样本”学习。另一个潜在的原因是,近年来深度神经网络的发展已针对音频和视觉领域的数据特征进行了调整,但随后直接应用于其他领域却没有考虑其适应性。与分析视觉和音频数据相比,在化学和生物学中应用并延伸类似的结构还处于初期。基于图神经网络的有监督的和无监督的学习都正在成为解决化学问题的可行方法,但仍有许多工作要做,包括如何使这些网络可计算扩展并适用于该领域。

假设人们可以使用合理的预测模型来构建MOO问题,那么仍然存在如何尝试解决MOO问题的问题。过去,MOO的算法主要由“遗传算法”控制,该算法使用类比来进行变异和交叉多样化操作以及使用适应性概念来进行优化,这些方法已被通常属于分布算法估计(EDA)类别的方法所替代,例如协方差矩阵适应进化策略,并与机器学习方法协同作用。此外,这些方法又与机器学习(即强化学习)有关。

对于连续数据,人们可能想到的最简单的生成模型可能是具有均值和方差的正态分布。当人们改变这些参数时,正常的样本自然就会发生变化。实际上,EDA的工作方式是拥有一个足够“丰富”的生成模型(即可以在设计中生成大量对象的模型,例如分子模型),然后使用特定的统计形式来调整参数,以便从中只对所需的分子进行取样。因此,MOO的组成要素不仅是所使用的预测模型和MOO算法,而且还是生成模型的类别。

一个相关的注意事项是如何以最适合于当前机器学习任务(例如预测模型和生成模型)的全部功能的方式表示分子和蛋白质。在自然语言处理领域,已经证明将原本由离散符号组成的句子转换为实值向量可为下游任务带来好处。在1990年代,分子设计方面也进行了类似的论证和努力,最近在深度学习的背景下又重新发现了它们。人工智能和机器学习可能有价值的是能够更好地编码人类做出的决策,从而可以将这些决策编入自动化系统中。

2345截图20200908083720.png

减少周期时间

识别和优化潜在的NCE所需的时间和投资是巨大的,并且药物研发过程的所有阶段都有很高的失败风险。为了解决这个问题,制药行业一直在投资化合物分析功能,但也带来了许多挑战,数据的增长远远超过了人脑的信息处理能力。为了跟上药物研发的复杂性和规模,科学家经常采用简单的试探法和效率指标。尽管这些方法有优点也有争议,但它们并未导致生成NCE所需的学习周期数或总体时间显著减少。

在药物研发中,将先导分子的特征改善为候选药物所需特征的这一主要过程称为设计-制造-测试-分析(DMTA)周期。这种基于假设的经典方法首先使用可用数据制定假设并设计分子(或从库中选择现有分子);随后合成或提取设计的化合物并在适当的测定法中进行测试,以研究假设是否正确并增进理解;然后,对这些知识进行分析并将其转化为下一个周期中设计的假设继续发展。

许多研究报告了提高DMTA循环有效性的方法,例如,更多地使用预测数据、改进的数据分析工具以及增强化合物合成的有效性等等。AI在某些方面可能为HTS提供替代方案。无需编译和依赖大型化合物库,而是可以在DMTA循环的每次迭代中合成少量测试所需的化合物,直到获得所需的测定读数。但是,尽管这种“主动学习”方法在命中和线索识别上具有吸引力,其自身也存在问题,例如,化学类型仅限于可自动微流体辅助合成和分析的反应。

即使有了这些改进,DMTA迭代的周期时间仍然很慢,通常可能需要4到8周以上才能完成。虽然“设计”和“分析”阶段可以很快进行,并且可以优化“测试”阶段,但“制造”阶段通常很慢,需要数周时间才能完成新型复杂分子的合成。因此,缩短该阶段可以大大减少DMTA循环的迭代时间。在这种情况下,实验室自动化(例如使用批处理或自动分析和纯化进行快速化合物合成)将发挥决定性作用。自动化反应的选择应主要集中在药物化学家经常使用的反应上,因此化学家可以执行更具挑战性的合成步骤并构思新的化学反应。

由于各种设计假设以及在各种测定中合成分子并对其进行分析所需的不同时间,因此经常并行进行多个设计周期。分子设计中需要捕获和分析的数据量不断增加,使得药物化学家和科学家难以始终全面地理解数千个数据点和趋势,并发现所有数据可以提供的经验教训。在努力跟上现代药物研发项目数据集的大小、复杂性和维度的过程中,科学家常常不得不求助于简单的启发法,例如经验法则、效率指标、或匹配的分子对等等。人工智能为提高DMTA循环的有效性提供了一系列机会,包括能够更好地利用大数据进行决策,整合和分析所有可用的实验数据和预测数据,以支撑设计团队的分子设计和想法。通过提供改进的合成路线和优化的反应条件,AI模型可以使化学家遵循最有效的路线,从而最终缩短“制造”阶段。

在适当的时机和环境下,通过预先处理和量身定制的信息或建议,研究人员将大为受益。这将减少他们翻阅原始数据的需要,他们可以直接用化学直觉和广泛的背景知识来专注于对所提供信息的评估。AI在低数据情况下从头开始在药物设计中的适用性尚未得到证实。在这种情况下,已确立的迁移学习概念可以为生成分子设计提供“少样本”的方法,并且开创性的例子已经证明了其实用性。但是,评估对命中和潜在客户产生的影响需要在不同的低数据情况和项目中进一步验证转移学习方法。在不久的将来,有了跨多个参数的更准确的预测模型,整个DMTA循环将变成虚拟的。通过更多的综合分析,假设的产生将变得更快,并且提出的分子将更好地应对MOO挑战。最终,这可以帮助减少DMTA周期和临床候选药物交付时间所需的时间。

研究文化和思维方式

除了技术问题之外,人工智能在药物研发中要想成功最大的挑战可能还在于培养利益相关者的思维方式和“文化”,使他们愿意应用这些计算模型并使用其结果。要做到这一点,首先要认识到各个利益相关者的不同经历,然后发展通用的术语和范例,以在AI辅助药物设计过程中为每个过程(以及它们之间的相互作用)建立明确的作用。在大学层面上促进这种发展的一种重要方法是教育和指导学生的批判性思维以及能够向其他研究人员和更广泛的受众解释自己的操作。

鼓励采用AI方法的关键是确定AI可以扩大和支持化学家和药物设计师的领域,而不是替代。AI的一个局限性是拥有精心挑选的数据来构建适当的训练集,但是注释和整理数据的过程却是许多化学家认为繁重的过程。如果实验室的笔记本可以利用AI来捕获、注释和管理数据,那么化学家就能够将更多的时间集中在开发有效药物所必需的创新和人类洞察力上。此外,如果可以利用AI工具从其他药物化学程序中筛选过去几年的数据并将数据接入当前程序,则药物设计中的其他方向可能会有所突破。但为使这种循环有用,药物研发人员必须接受AI输出的价值,并结合自身经验加以利用。

人工智能系统还必须能够与人类专家互动和合作,以执行复杂的部分定义的任务。此外,如果在建议或预测本身的基础上提供了可理解的理由,那么基于AI的系统的使用也会受益。我们应该将AI视为合作伙伴而不是竞争对手。

THEEND

最新评论(评论仅代表用户观点)

更多
暂无评论