核心要点

  • 虚拟筛选:从超大化合物库中快速打分排序,富集可能有活性的分子,减少实验量。

  • 分子生成:用生成模型从头设计满足目标性质的新分子,拓展可探索的化学空间。

  • 性质预测(ADMET)与蛋白-配体对接:预测毒性、溶解度、结合亲和力等关键指标。

  • 逆合成规划:反向拆解目标分子,给出可行的合成路线,连通「设计-合成」闭环。

标准回答

主要应用环节

  • 虚拟筛选:对数百万到数十亿规模的化合物库用模型打分排序,富集潜在活性分子,把昂贵的湿实验集中到少量候选上。
  • 分子生成:用 VAE、扩散或自回归等生成模型,从头设计满足目标活性、选择性的新分子结构。
  • 性质预测:预测 ADMET(吸收、分布、代谢、排泄、毒性)、溶解度、成药性等,提前淘汰高风险分子。
  • 蛋白-配体对接与亲和力预测:估计小分子与靶点蛋白的结合姿态和强度,结构信息(如 AlphaFold 预测的靶点结构)可作为输入。
  • 逆合成规划:反向分解目标分子,搜索可执行的化学反应路线。

价值

把传统上耗时数年、成本极高的早期发现阶段大幅压缩,缩短周期、降低成本,并扩大可探索的化学空间。

主要挑战

高质量标注数据稀缺、分布外泛化差、模型预测仍需湿实验闭环验证,避免「纸面有效、实验无效」。

常见误区

⚠️ 常见踩坑

AI 不能替代湿实验:模型给出的是候选与优先级,最终活性、安全性仍须实验和临床验证;且生物活性数据稀少、易过拟合,盲信高分会被分布外样本误导。

追问

追问 1药物发现里数据稀缺为什么是核心难题?

真实活性、毒性数据往往只有几百到几千条,且偏向已研究的化学空间,导致模型容易过拟合、对新骨架泛化差。常见缓解手段包括迁移学习、预训练分子表征、主动学习挑选信息量最大的实验、以及引入物理先验(如对接打分)补充纯数据驱动的不足。

追问 2生成出的分子如何保证「可合成」?

单纯优化活性容易得到化学上不合理或无法合成的分子。实践中会加入合成可行性约束:如评估 SA score、用逆合成模型检查是否存在可行路线,或直接在反应模板空间内生成(reaction-based generation),确保候选既新颖又能真正被合成出来验证。

延伸学习

与本题相关的知识库文章、术语、工具与行业资讯。