Nature Chemistry:通过深度学习和高通量实验进行药物分子后期衍生化


一、【导读】

在药物发现中,后期功能化是一种经济高效的方法,用于优化药物候选化合物的性质。然而,药物分子的化学复杂性常常使得后期多样化变得具有挑战性。来自苏黎世联邦理工学院Gisbert Schneider、罗氏创新中心(Roche Innovation Center) Rainer E. Martin、Uwe Grether、慕尼黑大学David B. Konrad报道基于深度学习和高通量实验筛选,搭建了药物分子后期衍生化的平台,在考察后期官能团化的关键硼基化反应时,理论计算模型预测反应产物的误差达到4-5 %,而且对已知或未知反应物的反应分类准确率分别达到92 %和67 %,对主要产物的区域选择性准确性的F值达到67%。

二、【成果掠影】

作者通该研究采用两步方法生成机器学习数据。第一步,基于已批准药物的聚类分析选择了23种结构多样的药物分子作为底物。第二步,使用高通量实验(HTE)在不同条件下生成了所选药物分子的反应结果数据。不同的图神经网络(GNNs)针对二维、三维和原子部分电荷增强的分子图进行训练,以预测二元反应结果、反应产率和区域选择性。GNNs在预测反应产率和二元反应结果方面比基准模型取得了更高的准确性。对GNNs性能的影响进行了评估,并展示了预测结果的图表和性能指标。相关研究成果以“Enabling late-stage drug diversification by high-throughput experimentation with geometric deep learning”为题发表在国际知名期刊Nature Chemistry上。

三、【核心创新点】

1、通过HTE设置和液相色谱-质谱分析获得了23种药物化合物的反应结果数据。实验数据分析管道确定了二元反应结果和反应产率。

2、量化了立体和电子信息对模型性能的影响,并引入了一种简单易用的反应格式,为深度学习和高通量实验的无缝集成提供了关键支持。

四、【数据概览】

图 1 硼化多样化机会和研究概述 © 2023 Nature

(a) 药物分子的后期硼化

(b) 研究概述

图2 筛选板概述和GNN架构 © 2023 Nature

(a)实验中使用的 24 孔硼化筛选板的示意图

(b)基线模型由前馈神经网络组成

(c)深度学习平台的路线

图3 二元反应结果、反应产率和区域选择性预测的结果 © 2023 Nature

(a)实验数据集上反应产率预测的性能

(b)阈值≥1%的二元反应结果预测的混淆矩阵

(c)用于 aGNN3DQM 测试集中非季碳预测的混淆矩阵

(d)研究的神经网络在四种不同任务中的性能

(e)由神经网络预测的三种药物和三个片段的未见底物的二元反应结果所预测的经过验证的硼化机会的选定示例

图4 . 硼化区域选择性预测的选定示例 © 2023 Nature

(a)前 20% 和后 20% 的两个反应的结果

(b)从罗氏遗留项目的分布外反应中获得的回顾性结果

(c)在文献数据集上训练的区域选择性预测模型的前瞻性实验验证

(d)空间位阻和定向官能团对来自文献数据集测试集的六个选定示例的区域选择性预测的影响

五、【总结】

总之,作者通过几何深度学习和高通量实验,实现了后期药物多样化的功能化平台,成功识别了23种不同药物分子的结构多样化机会,并对反应产物的反应性、选择性和产率进行了准确预测。本研究的结果证实了几何深度学习平台在生物有机和药物化学中的实际适用性及其对实验室自动化的潜在益处。该方法通常成功地应用于评估 F. Hoffmann-La Roche Ltd 药物发现项目中硼化机会的二元反应结果、反应产率和区域选择性。标准化 HTE 不断生成额外的数据点,以进一步增强提出了计算模型。

原文详情

Enabling late-stage drug diversification by high-throughput experimentation with geometric deep learning. Nature Chemistry.  DOI: 10.1038/s41557-023-01360-5.

本文由尼古拉斯供稿

分享到