核心要点
虚拟筛选:从超大化合物库中快速打分排序,富集可能有活性的分子,减少实验量。
分子生成:用生成模型从头设计满足目标性质的新分子,拓展可探索的化学空间。
性质预测(ADMET)与蛋白-配体对接:预测毒性、溶解度、结合亲和力等关键指标。
逆合成规划:反向拆解目标分子,给出可行的合成路线,连通「设计-合成」闭环。
标准回答
主要应用环节
- 虚拟筛选:对数百万到数十亿规模的化合物库用模型打分排序,富集潜在活性分子,把昂贵的湿实验集中到少量候选上。
- 分子生成:用 VAE、扩散或自回归等生成模型,从头设计满足目标活性、选择性的新分子结构。
- 性质预测:预测 ADMET(吸收、分布、代谢、排泄、毒性)、溶解度、成药性等,提前淘汰高风险分子。
- 蛋白-配体对接与亲和力预测:估计小分子与靶点蛋白的结合姿态和强度,结构信息(如 AlphaFold 预测的靶点结构)可作为输入。
- 逆合成规划:反向分解目标分子,搜索可执行的化学反应路线。
价值
把传统上耗时数年、成本极高的早期发现阶段大幅压缩,缩短周期、降低成本,并扩大可探索的化学空间。
主要挑战
高质量标注数据稀缺、分布外泛化差、模型预测仍需湿实验闭环验证,避免「纸面有效、实验无效」。
常见误区
⚠️ 常见踩坑
AI 不能替代湿实验:模型给出的是候选与优先级,最终活性、安全性仍须实验和临床验证;且生物活性数据稀少、易过拟合,盲信高分会被分布外样本误导。
追问
追问 1:药物发现里数据稀缺为什么是核心难题?
真实活性、毒性数据往往只有几百到几千条,且偏向已研究的化学空间,导致模型容易过拟合、对新骨架泛化差。常见缓解手段包括迁移学习、预训练分子表征、主动学习挑选信息量最大的实验、以及引入物理先验(如对接打分)补充纯数据驱动的不足。
追问 2:生成出的分子如何保证「可合成」?
单纯优化活性容易得到化学上不合理或无法合成的分子。实践中会加入合成可行性约束:如评估 SA score、用逆合成模型检查是否存在可行路线,或直接在反应模板空间内生成(reaction-based generation),确保候选既新颖又能真正被合成出来验证。
延伸学习
与本题相关的知识库文章、术语、工具与行业资讯。