最新Science:机器学习预测pd催化C-N偶联的底物自适应条件


一、【导读】

碳氮(C-N) 偶联的战略价值使其成为化工企业许多领域的重要变革。特别是,Buchwald-Hartwig (B-H)偶联是最重要的C-N成键反应之一,并彻底改变了现代合成有机化学的实践。在反应过程中,钯配合物催化(杂)芳基亲电试剂与各种氮亲核试剂的交叉偶联。实验人员通常需要确定新的B-H偶联的基材特定条件,而参与这一转变的亲电试剂和亲核试剂范围广泛,需要开发许多催化剂和条件,才能使不同的反应分子成功偶联。选择合适的钯配体尤为重要,因为B-H偶联对配体结构的变化异常敏感。机器学习方法在加速识别化学转化的反应条件方面具有很大的潜力,通过机器学习构建碳氮偶联实验数据集可实现pd催化C-N偶联的底物自适应条件的预测。

二、【成果掠影】

近期,美国伊利诺伊大学厄巴纳-香槟分校的Scott E. Denmark教授以及瑞士巴塞尔合成分子技术开发过程化学和催化制药部的Raphael Bigler和Serena Fantasia等人提出了一种工具,给出了钯(Pd)催化碳氮(C-N)偶联的底物自适应条件预测。该工具的设计和构建需要生成一个实验数据集,该数据集可以在一系列反应条件下探索不同的反应物配对网络。通过系统的实验设计过程,利用神经网络模型主动学习大范围的碳氮偶联。模型在实验验证中表现出良好的性能:从一系列与样品外反应物的偶联中分离出10个产品,产率超过85%。重要的是,随着数据量的增长,所开发的工作流程不断提高工具的预测能力。相关研究成果以“A machine-learning tool to predict substrate-adaptive conditions for Pd-catalyzed C–N couplings”为题发表在国际著名期刊Science上。

三、【核心创新点】

设计的机器学习模型可以使用随机分割的数据以9%的平均绝对误差实现pd催化C-N偶联反应的产率预测。随着数据量的增长,机器学习工具的预测能力越强。

四、【数据概览】

图1该项工作的目标是确定在没有实验活动的情况下为新偶联反应提供有用的产率。©2023 Science

图2定义基质自适应模型,并将其与机器学习辅助优化模型进行比较。©2023 Science

图3本研究中使用的B-H偶联反应中氮亲核试剂的代表性范围,并与其他已验证的B-H偶联的机器学习研究进行比较。选择过程:(a)策划一个具有代表性的范围, (b)使用本工作中开发的新化学描述符的算法对它们进行聚类。所示的结构是已确定的八个集群中的一些示例。©2023 Science

图4新的、实验驱动的、主动学习的工作流程用于探索反应空间。©2023 Science

图5 B-H反应空间反应物组分的可视化。(A)分布在二维网格中的反应物簇的数据集。(B)结构图,显示了数据集中采样的反应物对的网络连通性。每个集群显示一个示例。©2023 Science

图6底物自适应模型作为条件推荐的实验验证。所有产品的样品外(红色)和样品内(蓝色)反应物片段都有标示。圆形图标表示测试的预测命中次数;绿色表示成功,红色表示失败。最高分离产率在圆形图标下面表示。预测热图共享化合物m的图例。刻度表示每种偶联(中间数字)和颜色刻度的最高产率预测。©2023 Science

五、【成果启示】

本文描述的数据集包括大于120对的反应物,系统地探索了B-H偶联空间的微观世界。在这些数据上训练的模型同时学习了许多不同种类的反应物的非线性反应性趋势。这些模型可以使用随机分割的数据以9%的平均绝对误差预测反应的产率,并且在反应物泛化方面表现出色,正如样品外底物验证所证明的那样。实现这一目标的关键是一种信息学指导的策略,该策略将探索45万分子反应空间的实验不可能性降低到获取仅包含3300个实验的数据集的实验可处理的问题。本文提出了这个经过验证的pd催化C-N偶联工具,以及一个主动学习工作流程,与之前的工作不同,它被用来为化学社区建立一个扩展的数据集。化学界可以在四个不同的层面上参与这项工作。对机器学习不感兴趣的实验人员可以在没有机器学习或编程专业知识的情况下使用本工作中提供的工具快照,并期望性能与实验验证相符。该项工作邀请任何对机器学习感兴趣的从业者使用该工具并恢复图4中的工作流程,将该工具磨练到新反应物领域或稳步提高现有数据集领域的预测精度。此外,该项工作也邀请任何具有机器学习专业知识的从业者将新的主动学习框架用于具有扩展多反应物空间的其他重要反应。

原文链接:https://www.science.org/doi/full/10.1126/science.adg2114

本文由小艺撰稿

分享到