一、AI 制药是什么:为什么传统药物研发需要 AI?
AI 制药(AI-driven Drug Discovery)是指将人工智能技术——特别是深度学习、生成模型、图神经网络和强化学习——应用于药物研发的各个环节,以加速发现过程、降低研发成本并提高成功率。
1.1 传统药物研发的「双十困境」
传统药物研发面临著名的**「双十定律」:一款新药平均需要10 年以上的研发周期和超过 10 亿美元**的研发投入。这个数据的背后是极其残酷的现实:
- 靶点发现:从数万个潜在靶点中筛选出真正有效的,耗时 2-3 年
- 先导化合物发现:从数百万分子中找到能结合靶点的候选分子,耗时 2-4 年
- 临床前研究:体内外实验验证安全性和有效性,耗时 1-2 年
- 临床试验:I/II/III 期试验,耗时 5-7 年,失败率超过 90%
- 监管审批:FDA/EMA 审批,耗时 1-2 年
核心痛点在于:药物研发本质上是在一个超大规模的化学空间(约 10^60 个类药分子)中寻找极少数有效的候选分子。这相当于在太平洋中找到一颗特定的沙子。
1.2 AI 如何解决这些痛点?
AI 的介入不是替代科学家,而是赋能科学家——在每一个环节提供计算加速:
靶点发现加速:AI 通过分析基因组学、转录组学、蛋白质组学等多组学数据,识别疾病相关的生物标志物和药物靶点。传统方法需要数月的手工文献调研和实验验证,AI 可以在数天内完成初步筛选。
分子设计革命:生成模型(如 VAE、GAN、扩散模型)可以直接「生成」全新的分子结构,而不是从已有化合物库中筛选。这相当于从大海捞针变成了按需制造。
ADME 预测:AI 可以在合成之前就预测分子的吸收、分布、代谢、排泄(ADME)性质,大幅减少无效分子的合成和测试。
临床试验优化:AI 可以优化患者招募、试验设计和终点选择,降低临床试验的失败率和成本。
1.3 AI 制药的市场规模
2026 年,AI 制药行业迎来了爆发式增长:
- Isomorphic Labs(DeepMind 旗下)完成 143 亿元人民币(约 20 亿美元)史上最大 AI 制药融资
- 全球 AI 制药市场规模预计 2026 年超过 50 亿美元,年复合增长率超过 30%
- 超过 200 家 AI 制药公司活跃在全球市场,涵盖从靶点发现到临床试验的全产业链
关键数据:AI 可以将早期药物发现的时间从 4-5 年缩短到 1-2 年,将研发成本降低 30-50%。这不是渐进式的改进,而是范式级别的转变。
学习建议:如果你是药物化学或生物学背景,建议先理解 AI 的基本能力边界——AI 不是万能的,它在模式识别和预测建模方面表现出色,但在因果关系推断和全新机制发现方面仍有局限。理解这一点,能帮你更好地判断 AI 在哪些环节最有效。
常见误区:AI 制药 ≠ AI 自动发明新药。AI 在药物研发中扮演的是加速器和过滤器的角色,最终的药物候选分子仍需要化学合成和实验验证。AI 可以大幅缩小搜索空间,但不能替代湿实验。
二、靶点发现:AI 如何找到疾病的「开关」
靶点(Drug Target)是药物作用的分子对象——通常是蛋白质、酶或受体。找到正确的靶点是药物研发的第一步,也是最关键的一步。据统计,约 30% 的临床失败归因于靶点选择错误。
2.1 靶点发现的传统方法
传统的靶点发现主要依赖以下方法:
文献调研:科学家通过阅读大量学术论文和专利,找出与疾病相关的基因和蛋白质。这种方法高度依赖个人经验和学术直觉,且信息量有限。
基因关联分析:通过全基因组关联研究(GWAS)找出与疾病相关的遗传变异。虽然 GWAS 已经发现了数万个疾病相关位点,但大多数位点位于非编码区,功能注释困难。
高通量筛选(HTS):对数千到数万个化合物进行体外实验筛选,找出能调节特定生物过程的分子。HTS 成本高昂,且筛选库的大小受到物理限制。
2.2 AI 驱动的靶点发现
AI 通过以下方式彻底改变了靶点发现的范式:
多组学数据整合:AI 可以同时分析基因组、转录组、蛋白质组、代谢组和表观基因组数据,找出跨层次的生物标志物。例如,图神经网络可以将基因、蛋白质、代谢物和疾病表型构建为一个知识图谱,然后通过图嵌入和链接预测发现潜在的药物靶点。
自然语言处理(NLP):大语言模型可以阅读数百万篇生物医学文献,提取基因-疾病关联、蛋白质相互作用和药物副作用等信息。BioBERT、SciBERT 等生物医学专用模型在这方面表现尤为出色。
因果推断:传统的关联分析只能找出相关性,而 AI 驱动的因果推断方法(如孟德尔随机化与深度学习结合)可以推断基因与疾病之间的因果关系,大幅提高靶点的有效性。
2.3 代表性平台与工具
- Open Targets:欧洲生物信息学研究所(EBI)和惠康桑格研究所联合开发的开放靶点平台,整合了 GWAS、基因表达、文献挖掘等多源数据
- BenevolentAI:使用 AI 知识图谱发现靶点,成功识别了巴瑞替尼(Baricitinib)作为 COVID-19 的治疗候选药物
- Insilico Medicine:利用深度学习发现特发性肺纤维化(IPF)的新靶点,并在 18 个月内推进到临床前候选化合物阶段
靶点发现 AI 的核心指标:
| 指标 | 传统方法 | AI 方法 | 提升幅度 |
|---|---|---|---|
| 筛选速度 | 数月 | 数天-数周 | 10-100 倍 |
| 数据量 | 单一组学 | 多组学整合 | 10+ 倍 |
| 成功率 | ~30% | ~50%+ | ~2 倍 |
| 发现新靶点比例 | <10% | ~30% | 3 倍 |
# 示例:使用 PyTorch Geometric 构建基因-疾病知识图谱
# 进行靶点预测(链接预测任务)
import torch
from torch_geometric.nn import GCNConv, SAGEConv
from torch_geometric.data import Data
class TargetPredictionGNN(torch.nn.Module):
"""基于图神经网络的药物靶点预测模型"""
def __init__(self, num_genes, hidden_dim=128, num_layers=3):
super().__init__()
self.num_genes = num_genes
# GCN 层用于学习基因的图嵌入表示
self.conv1 = GCNConv(num_genes, hidden_dim)
self.conv2 = GCNConv(hidden_dim, hidden_dim)
self.conv3 = GCNConv(hidden_dim, hidden_dim)
# 链接预测头
self.predictor = torch.nn.Linear(hidden_dim * 2, 1)
def forward(self, edge_index, edge_weight, node_features):
# 多层图卷积
x = self.conv1(node_features, edge_index, edge_weight)
x = torch.relu(x)
x = self.conv2(x, edge_index, edge_weight)
x = torch.relu(x)
x = self.conv3(x, edge_index, edge_weight)
return x
def predict_link(self, gene_embedding, disease_embedding):
"""预测基因-疾病关联概率"""
combined = torch.cat([gene_embedding, disease_embedding], dim=-1)
score = torch.sigmoid(self.predictor(combined))
return score实践建议:如果你刚开始接触 AI 靶点发现,建议从 Open Targets Platform(opentargets.org)开始——它是一个免费开放的平台,提供了高质量的基因-疾病关联数据和可视化工具。在掌握了基础知识后,再学习使用 PyTorch Geometric 构建自定义的图神经网络模型。
注意:图神经网络在生物知识图谱上的应用面临数据稀疏性和偏差问题。已知的基因-疾病关联远少于未知的关联,这会导致模型的正负样本极度不平衡。建议使用负采样策略和加权损失函数来处理这个问题。
三、分子设计与生成:AI 如何「发明」新分子
分子设计(Molecular Design)是 AI 制药最引人注目的领域之一。传统方法依赖于高通量筛选已有的化合物库(通常包含数百万到数十亿个分子),而 AI 生成模型可以创造出全新的分子结构——这些分子在自然界和现有化合物库中都不存在。
3.1 分子表示方法
在将 AI 应用于分子设计之前,首先需要解决分子如何表示的问题。主流的表示方法有三种:
SMILES 字符串(Simplified Molecular Input Line Entry System):将分子结构编码为一维字符串。例如,阿司匹林的 SMILES 是 CC(=O)Oc1ccccc1C(=O)O。SMILES 的优点是紧凑且人类可读,可以直接使用自然语言处理模型(如 Transformer)进行处理。缺点是同一分子可能有多种 SMILES 表示(非唯一性),且某些生成的 SMILES 可能是无效的分子。
分子图(Molecular Graph):将原子表示为节点,化学键表示为边。分子图保留了完整的拓扑结构信息,是图神经网络(GNN)的自然输入格式。分子图的优点是精确且唯一,缺点是处理大规模分子图时计算开销较大。
三维构象(3D Conformation):分子的空间三维结构,包括原子坐标和键角。三维构象对于理解分子-靶点相互作用至关重要,但获取高质量的 3D 结构需要X 射线晶体学或冷冻电镜,成本极高。AlphaFold 3 的突破之一就是能够高精度预测蛋白质-配体复合物的三维结构。
3.2 生成模型在分子设计中的应用
变分自编码器(VAE):VAE 将分子编码到连续的潜在空间(Latent Space)中,然后通过解码器生成新的分子。VAE 的优点是潜在空间是连续且可插值的——你可以在两个已知活性分子的潜在向量之间插值,生成具有中间性质的新分子。代表工作包括 JT-VAE(Junction Tree VAE)和 HierVAE。
生成对抗网络(GAN):GAN 通过生成器和判别器的对抗训练来学习分子的分布。生成器试图生成「像」真实药物的分子,判别器试图区分生成的分子和真实分子。MolGAN 和 GraphGAN 是代表性工作。GAN 的挑战在于训练不稳定,且难以保证生成的分子具有药物样性质(Drug-likeness)。
扩散模型(Diffusion Models):扩散模型是 2024-2026 年分子设计领域最热门的方法。通过在分子数据上逐步添加噪声(前向过程)然后学习去噪(反向过程),扩散模型可以生成高质量且多样化的分子。代表工作包括 DiffLinker(片段连接)、EDM(等变扩散模型)和 Molecule Diffusion。扩散模型的优势在于生成的分子化学有效性高,且可以灵活地加入条件约束(如靶点结合亲和力、ADME 性质等)。
强化学习(RL):将分子生成建模为马尔可夫决策过程(MDP),其中每个动作是添加一个原子或键。奖励函数可以包含多个目标:结合亲和力、合成可行性、毒性、溶解度等。REINVENT 和 REACT 是代表性工作。强化学习的优势在于可以同时优化多个目标,但训练复杂且奖励函数设计困难。
3.3 多目标优化:不仅仅是结合亲和力
一个优秀的药物候选分子需要同时满足多个性质:
- 结合亲和力(Binding Affinity):分子与靶点蛋白的结合强度,通常用 IC50 或 Ki 表示
- 类药性(Drug-likeness):用 Lipinski 五规则(分子量 < 500、氢键供体 < 5、氢键受体 < 10、logP < 5)评估
- 合成可行性(Synthetic Accessibility):分子是否能在实验室中实际合成
- ADME 性质:吸收(Absorption)、分布(Distribution)、代谢(Metabolism)、排泄(Excretion)
- 毒性(Toxicity):包括 hERG 毒性(心脏毒性)、肝毒性、致突变性等
多目标分子生成是当前的研究前沿——如何在生成分子的同时优化所有这些性质,是一个高维多目标优化问题。主流方法包括帕累托优化(Pareto Optimization)和加权标量化(Scalarization)。
学习建议:分子表示方法是理解 AI 分子设计的基础。建议先用 RDKit(Python 化学信息学库)练习 SMILES 和分子图的相互转换,理解分子在计算机中是如何被表示的。然后再学习生成模型,会事半功倍。
重要提醒:AI 生成的分子不等于可以直接使用的药物。生成的分子需要通过化学合成验证、体外活性测试、体内安全性评估等多个环节。AI 的价值在于大幅缩小候选分子的范围——从数百万个减少到数十个,而不是直接产出最终药物。
四、蛋白质结构预测:从 AlphaFold 到 Isomorphic Labs
蛋白质结构预测是 AI 制药的基石之一。蛋白质的三维结构决定了它的功能——理解蛋白质如何折叠、如何与其他分子相互作用,是理性药物设计(Rational Drug Design)的前提。
4.1 AlphaFold 的里程碑意义
DeepMind 的 AlphaFold 系列是蛋白质结构预测领域的革命性突破:
AlphaFold 1(2018):在 CASP13(蛋白质结构预测关键评估竞赛)中以显著优势夺冠,首次证明了深度学习可以高精度预测蛋白质结构。
AlphaFold 2(2020):在 CASP14 中达到原子级精度(中位全局距离测试 GDT 分数超过 90),解决了困扰结构生物学 50 年的蛋白质折叠问题。DeepMind 随后开源了 AlphaFold 2,并发布了超过 2 亿个已知蛋白质的结构预测,覆盖了几乎所有已知的蛋白质序列。
AlphaFold 3(2024):从单纯的蛋白质结构预测扩展到蛋白质-配体、蛋白质-核酸、蛋白质-抗体复合物的结构预测。这意味着 AlphaFold 3 不仅可以预测蛋白质本身的结构,还可以预测蛋白质如何与药物分子结合——这正是药物设计的核心问题。
4.2 Isomorphic Labs:从科研到产业
2026 年,DeepMind 母公司 Alphabet 旗下的 Isomorphic Labs 完成了 143 亿元人民币的融资——这是 AI 制药领域史上最大的单笔融资。Isomorphic Labs 的核心使命是将 AlphaFold 的科研突破转化为实际的药物研发管线。
Isomorphic Labs 的战略定位:
- 平台化药物发现:利用 AlphaFold 3 的结构预测能力,构建端到端的药物发现平台——从靶点验证到候选化合物设计
- 与大药企合作:已与 礼来(Eli Lilly) 和 诺华(Novartis) 签订合作协议,总交易价值超过 10 亿美元
- 自研管线:同时推进多个内部药物研发项目,覆盖肿瘤学和神经系统疾病
4.3 其他重要蛋白质结构预测工具
- ESMFold(Meta):基于蛋白质语言模型(ESM-2)的结构预测工具,速度比 AlphaFold 2 快 60 倍,适合大规模筛选
- RoseTTAFold(David Baker 实验室):开源的蛋白质结构预测工具,在蛋白质设计(从头设计全新蛋白质)方面表现突出
- OmegaFold(深圳湾实验室):中国团队开发的蛋白质结构预测工具,无需多序列比对(MSA),大幅提高了预测速度
- Protenix(字节跳动):开源的高精度分子结构预测工具,在 2026 年 获得广泛关注
蛋白质结构预测在药物设计中的具体应用:
基于结构的药物设计(SBDD):利用蛋白质的三维结构,通过分子对接(Molecular Docking)和分子动力学模拟(MD Simulation)设计能精准结合靶点的分子。
别构位点发现:除了蛋白质的活性位点(Orthosteric Site),AI 还可以发现别构调节位点(Allosteric Site)——这些位点提供了更精确调控的可能性,且往往具有更好的选择性。
蛋白质-蛋白质相互作用(PPI):许多疾病相关的靶点涉及蛋白质之间的相互作用。理解 PPI 的界面结构,可以设计干扰或增强这些相互作用的分子。
扩展阅读:如果你感兴趣的是蛋白质设计(而非预测),推荐了解 RFdiffusion(RoseTTAFold 团队开发)和 Chroma(Generate Biomedicines 开发)——这些工具可以从零开始设计具有特定功能的全新蛋白质,这是 AI 制药的前沿领域。
局限性:尽管 AlphaFold 3 在结构预测方面取得了巨大突破,但它仍然无法完美预测内在无序蛋白(Intrinsically Disordered Proteins, IDPs)——这类蛋白没有固定的三维结构,但在信号传导和基因调控中起关键作用。目前针对 IDPs 的预测和药物设计仍是未解难题。
五、ADME/毒性预测:AI 在临床前研究中的应用
ADME(吸收、分布、代谢、排泄)和毒性(Toxicity)是药物研发中淘汰候选分子的最主要原因。据统计,约 40% 的临床失败归因于不良的 ADME 性质或毒性。AI 在临床前阶段的核心价值就是在合成和测试之前预测这些性质。
5.1 吸收(Absorption)预测
口服生物利用度(Oral Bioavailability)是药物吸收的核心指标——药物通过口服后,有多少能进入全身循环。AI 可以通过分析分子的理化性质(如脂溶性、分子量、极性表面积)和结构特征来预测口服生物利用度。
Caco-2 通透性是体外评估肠道吸收的标准模型。AI 模型(特别是图神经网络)可以在 Caco-2 实验之前预测分子的肠壁通透性,大幅减少体外实验的数量。
5.2 分布(Distribution)预测
药物的分布决定了它能否到达靶点所在的组织。关键的分布参数包括:
血浆蛋白结合率(PPB):药物与血浆蛋白(主要是白蛋白)结合的比例。高结合率意味着游离药物浓度低,可能影响药效。
血脑屏障(BBB):对于中枢神经系统(CNS)药物,药物必须能够穿过血脑屏障才能到达靶点。AI 可以预测分子的 BBB 通透性——这是 CNS 药物设计的关键筛选条件。
组织分布:AI 可以预测药物在不同组织(肝、肾、心、肺等)中的浓度分布,帮助评估潜在的组织特异性毒性。
5.3 代谢(Metabolism)预测
细胞色素 P450(CYP450) 酶家族是肝脏中最重要的药物代谢酶。AI 可以预测分子是否是 CYP450 的底物、抑制剂或诱导剂:
- 底物:分子被 CYP450 代谢 → 影响药物的半衰期和清除率
- 抑制剂:分子抑制 CYP450 → 可能导致药物-药物相互作用(DDI),使其他药物的代谢减慢
- 诱导剂:分子诱导 CYP450 表达 → 可能加速自身或其他药物的代谢
代谢产物预测:AI 还可以预测药物在体内的代谢产物(Metabolites)——有些代谢产物可能具有毒性或活性,需要单独评估。
5.4 排泄(Excretion)和毒性(Toxicity)预测
肾脏清除率:AI 可以预测分子通过肾脏排泄的速率,这对确定给药频率至关重要。
hERG 心脏毒性:hERG 钾通道的抑制会导致长 QT 综合征,严重时可引起心律失常甚至猝死。hERG 毒性是药物开发中最常见的安全性问题之一。AI 模型(基于图神经网络和分子对接)可以在早期预测 hERG 抑制活性。
肝毒性(DILI):药物性肝损伤是药物撤市的主要原因。AI 通过分析分子的结构警示(Structural Alerts)和代谢途径来预测肝毒性风险。
致突变性(Ames 试验):AI 可以预测分子是否具有致突变性(导致 DNA 突变),这是监管审批的必检项目。
# 示例:使用图神经网络预测分子的 ADME 性质
# 基于 RDKit + PyTorch Geometric
import torch
import torch.nn.functional as F
from torch_geometric.nn import GCNConv, global_mean_pool
from torch_geometric.data import DataLoader
from rdkit import Chem
from rdkit.Chem import AllChem
import numpy as np
class ADMEPredictor(torch.nn.Module):
"""多任务 ADME 性质预测模型"""
def __init__(self, hidden_dim=256, num_tasks=5):
super().__init__()
# 分子特征提取:多层图卷积
self.conv1 = GCNConv(75, hidden_dim) # 75 维原子特征
self.conv2 = GCNConv(hidden_dim, hidden_dim)
self.conv3 = GCNConv(hidden_dim, hidden_dim)
# 多任务预测头
# 任务: [Caco-2, BBB, CYP3A4, hERG, DILI]
self.task_heads = torch.nn.ModuleList([
torch.nn.Linear(hidden_dim, 1) # 每个任务一个线性层
for _ in range(num_tasks)
])
def forward(self, data):
x, edge_index, batch = data.x, data.edge_index, data.batch
# 图卷积编码
x = F.relu(self.conv1(x, edge_index))
x = F.relu(self.conv2(x, edge_index))
x = self.conv3(x, edge_index)
# 图级别池化(全分子表示)
x = global_mean_pool(x, batch)
# 多任务预测
predictions = [head(x) for head in self.task_heads]
return predictions
def predict_adme(self, smiles_list):
"""对一批 SMILES 进行 ADME 预测"""
results = []
for smi in smiles_list:
mol = Chem.MolFromSmiles(smi)
if mol is None:
continue
# 提取分子图特征
features = self.extract_features(mol)
# 模型推理(简化示意)
pred = self.forward(features)
results.append({
'smiles': smi,
'caco2_permeability': float(pred[0]),
'bbb_permeability': float(pred[1]),
'cyp3a4_inhibition': float(pred[2]),
'herg_risk': float(pred[3]),
'dili_risk': float(pred[4])
})
return results最佳实践:在实际药物研发中,ADME 预测模型需要持续校准——将模型预测结果与实验数据对比,定期重新训练模型以提高预测准确性。不要将 AI 预测当作「绝对真理」,它应该作为决策辅助工具。
风险警告:AI 预测的 ADME/毒性结果不能替代监管要求的实验数据。FDA 和 EMA 仍然要求提供实验验证的 ADME 和安全性数据。AI 预测的价值在于早期筛选和优先级排序——帮助研发团队将有限的实验资源集中在最有希望的候选分子上。
六、临床试验优化:AI 如何降低 90% 的失败率
临床试验是药物研发中最昂贵、最耗时、风险最高的阶段。一款药物的 I/II/III 期临床试验总成本通常在 1-3 亿美元之间,而 90% 以上的候选分子在临床阶段失败。AI 正在从多个维度降低临床试验的失败率和成本。
6.1 患者招募优化
临床试验的患者招募是项目延期的最常见原因。据统计,约 80% 的临床试验因患者招募不足而延期。AI 可以通过以下方式加速患者招募:
电子健康记录(EHR):AI 可以自动分析医院的电子健康记录,识别符合试验入组标准的患者。相比人工筛选,AI 可以将筛选速度提高 10 倍以上。
患者分层(Patient Stratification):AI 可以根据患者的基因组特征、生物标志物和临床表型将患者分为不同的亚群,使试验设计更加精准,提高统计学效力。
合成对照臂(Synthetic Control Arm):利用历史临床数据和真实世界证据(RWE),AI 可以构建「虚拟」的对照组,减少实际需要招募的安慰剂组患者数量。这在罕见病和肿瘤学试验中尤为重要。
6.2 试验设计优化
适应性试验设计(Adaptive Trial Design):AI 可以在试验进行中实时分析数据,并根据中期结果调整试验方案——例如调整剂量、修改入组标准、甚至提前终止无效的试验组。这种方法比传统的固定方案试验更高效。
终点选择:AI 可以分析历史试验数据,帮助选择最能反映药物疗效的临床试验终点。例如,在阿尔茨海默病试验中,AI 可以帮助确定是使用认知评分、影像学标志物还是生物标志物作为主要终点。
6.3 安全性监测
实时安全性信号检测:AI 可以持续监测试验中的不良事件(AE)和严重不良事件(SAE),及早发现安全性信号。传统的 DSMB(数据安全监查委员会)通常定期审查数据,而 AI 可以实现近乎实时的监测。
药物-药物相互作用(DDI):AI 可以预测试验药物与患者正在使用的其他药物之间的相互作用,避免潜在的安全性风险。
6.4 真实世界证据(RWE)
真实世界数据(RWD)来自电子健康记录、保险理赔数据、患者报告结果和可穿戴设备等。AI 可以从这些非结构化数据中提取有价值的信息,为药物的长期安全性和有效性提供补充证据。FDA 已经明确表示支持使用 RWE 来支持监管决策。
行业趋势:越来越多的制药公司正在建立数字孪生(Digital Twin)——用患者的历史数据和生理模型创建「虚拟患者」,在真实临床试验之前进行计算机模拟试验。这种方法可以提前发现试验设计中的问题,大幅降低试验失败的风险。
伦理考量:AI 在患者招募和分层中的应用需要特别注意公平性和代表性——如果训练数据偏向某一人种或年龄组,AI 的推荐可能系统性排除某些患者群体。这不仅是科学问题,更是伦理问题和监管合规问题。
七、AI 制药工作流程:从靶点到 IND 申报的完整管线
理解 AI 制药的完整工作流程对于从业者至关重要。以下是一个典型的 AI 驱动药物发现管线,从靶点验证到IND(新药临床试验申请)申报。
7.1 阶段一:靶点验证(4-8 周)
输入:疾病相关的组学数据、文献、临床样本
AI 工具:
- NLP 文献挖掘:从数百万篇论文中提取基因-疾病关联
- 知识图谱推理:基于图神经网络的靶点优先级排序
- 孟德尔随机化:推断基因与疾病的因果关系
输出:3-5 个高置信度的候选靶点
7.2 阶段二:苗头化合物发现(4-12 周)
输入:靶点蛋白的三维结构(实验测定或 AlphaFold 预测)
AI 工具:
- 分子对接(Docking):将化合物库中的分子对接到靶点的结合口袋
- 生成模型:生成全新的分子结构,针对靶点优化
- 虚拟筛选:从数十亿分子库中筛选出最可能结合的候选分子
输出:100-500 个虚拟筛选出的候选分子
7.3 阶段三:先导化合物优化(3-6 个月)
输入:苗头化合物的结构和初步活性数据
AI 工具:
- 多目标优化:同时优化活性、ADME、毒性等多个性质
- SAR 分析(构效关系):AI 辅助理解分子结构与活性的关系
- 合成路线规划:AI 推荐最优的合成路径
输出:3-5 个先导化合物(Lead Compounds)
7.4 阶段四:临床前候选化合物确定(PCC, 2-4 个月)
输入:先导化合物的体内外实验数据
AI 工具:
- ADME/毒性预测:全面评估候选分子的药代动力学和安全性
- 制剂优化:AI 辅助选择合适的药物剂型和给药方式
- CMC(化学、制造和控制)支持
输出:1-2 个临床前候选化合物(Preclinical Candidate)
7.5 阶段五:IND 申报准备(3-6 个月)
输入:PCC 的完整数据包
AI 工具:
- 监管文件自动化:AI 辅助撰写 IND 申报文件
- 风险评估:AI 评估监管审批的潜在风险点
- 临床试验模拟:AI 预测一期临床试验的结果
输出:IND 申报文件提交给 FDA/EMA
完整管线的时间对比:
| 阶段 | 传统方法 | AI 加速方法 | 时间节省 |
|---|---|---|---|
| 靶点验证 | 12-24 个月 | 1-2 个月 | ~90% |
| 苗头化合物发现 | 12-24 个月 | 1-3 个月 | ~85% |
| 先导化合物优化 | 12-24 个月 | 3-6 个月 | ~70% |
| PCC 确定 | 6-12 个月 | 2-4 个月 | ~60% |
| IND 准备 | 6-12 个月 | 3-6 个月 | ~50% |
| 总计 | 4-8 年 | 1-2 年 | ~75% |
从业者建议:如果你正在规划 AI 制药项目,建议采用里程碑驱动的方式——每个阶段设定明确的成功标准和退出条件。不要在一个候选分子上投入过多时间,而是快速迭代——AI 的最大优势就是速度,充分利用这个优势。
常见陷阱:AI 制药项目最容易犯的错误是过度依赖单一 AI 模型的结果。在关键决策点(如选择 PCC),必须使用多种方法交叉验证——AI 预测、分子对接、分子动力学模拟、体外实验——单一方法的假阳性率太高。
八、代表性 AI 制药公司与平台对比
了解行业格局对于理解 AI 制药的发展方向至关重要。以下是全球主要 AI 制药公司和平台的系统对比。
8.1 第一梯队:平台型 AI 制药公司
Isomorphic Labs(Alphabet/DeepMind):
- 核心技术:AlphaFold 3 + 生成模型 + 自动化实验
- 融资:143 亿元人民币(2026 年)
- 合作:礼来(>10 亿美元)、诺华(>10 亿美元)
- 优势:蛋白质结构预测全球领先,计算能力和数据资源无与伦比
- 管线:肿瘤学、神经系统疾病
Insilico Medicine:
- 核心技术:Chemistry42 生成平台 + PandaOmics 靶点发现 + InSilicoTrials 试验模拟
- 里程碑:全球首个 AI 发现并进入临床 II 期 的药物(ISM001-055,治疗特发性肺纤维化)
- 优势:端到端 AI 管线最完整,从靶点到临床候选化合物全流程 AI 驱动
- 管线:肺纤维化、肿瘤、纤维化疾病
Exscientia(已被 Recursion 收购):
- 核心技术:AI 驱动的多参数优化平台
- 里程碑:首个 AI 设计的分子进入临床试验(DSP-1181,治疗强迫症)
- 优势:在多目标分子优化方面有深厚积累
8.2 第二梯队:垂直领域 AI 制药公司
Recursion Pharmaceuticals:
- 核心技术:自动化高通量细胞成像 + 深度学习表型分析
- 数据规模:超过 20 PB 的生物图像数据
- 优势:表型筛选(Phenotypic Screening)领域的领导者,不依赖靶点假设
BenevolentAI:
- 核心技术:AI 知识图谱 + 靶点发现
- 里程碑:发现巴瑞替尼(Baricitinib)作为 COVID-19 治疗候选药物
- 优势:知识图谱推理能力突出,擅长从复杂数据中发现隐藏关联
Schrödinger:
- 核心技术:计算物理 + 机器学习混合方法
- 优势:分子模拟和物理建模方面全球领先,FEP+(自由能微扰)技术是结合亲和力预测的金标准
8.3 开源工具与平台
| 工具 | 开发者 | 用途 | 成熟度 |
|---|---|---|---|
| AlphaFold 2/3 | DeepMind | 蛋白质结构预测 | ⭐⭐⭐⭐⭐ |
| RDKit | 开源社区 | 化学信息学基础库 | ⭐⭐⭐⭐⭐ |
| DeepChem | Stanford | 深度学习化学工具包 | ⭐⭐⭐⭐ |
| OpenFold | 开源社区 | AlphaFold 2 复现 | ⭐⭐⭐⭐ |
| DiffLinker | 研究者 | 分子片段连接的扩散模型 | ⭐⭐⭐ |
| ESMFold | Meta | 快速蛋白质结构预测 | ⭐⭐⭐⭐ |
选择建议:
- 学术研究:从 AlphaFold + RDKit + DeepChem 开始,这些工具完全免费且社区活跃
- 工业应用:考虑商业平台(Schrödinger、OpenEye)或自建 AI 管线
- 初创公司:优先利用开源工具构建 MVP(最小可行产品),验证概念后再投入商业平台
行业洞察:AI 制药的竞争格局正在从算法竞争转向数据竞争。拥有高质量、大规模、多维度数据的公司将获得决定性优势。Isomorphic Labs 之所以能获得 143 亿元融资,核心原因不仅是 AlphaFold 的技术领先,更是因为 DeepMind 积累了全球最大规模的蛋白质结构数据库。
投资风险:尽管 AI 制药行业火热,但截至目前,还没有任何 AI 发现的药物获得 FDA 最终批准上市。多家 AI 制药公司的候选药物在临床试验中失败。AI 确实加速了早期发现,但临床阶段的失败率仍然是行业面临的根本挑战。投资者和从业者需要保持理性预期。
九、未来趋势:AI 制药的下一个十年
站在 2026 年的节点,AI 制药正处于从技术验证到规模产业化的关键转折点。以下是未来 5-10 年的核心趋势预判。
9.1 从「AI 辅助」到「AI 驱动」
当前的 AI 制药大多处于AI 辅助阶段——科学家用 AI 加速某些环节,但整体决策仍由人类主导。未来 5 年,我们将看到更多AI 驱动的药物研发项目——AI 不仅提供建议,还自主设计实验方案、解读实验结果并调整分子设计。
自主实验室(Self-driving Lab):将 AI 决策系统与自动化实验平台(机器人合成、自动化表征)结合,实现闭环药物发现。AI 设计分子 → 机器人合成 → 自动测试 → AI 分析结果 → AI 设计下一代分子。这个循环可以在数天内完成传统方法需要数月的迭代。
9.2 多模态 AI 制药
未来的 AI 制药模型将不再是单一模态的——而是同时处理蛋白质结构、分子图、文本知识、组学数据和临床试验数据的多模态模型。类似 AlphaFold 3 的多模态架构将成为行业标准。
9.3 生成式 AI 的全面渗透
扩散模型将在分子设计、蛋白质设计和试验设计中全面替代传统的 VAE 和 GAN。扩散模型的优势在于训练稳定、生成质量高、条件控制灵活——这些特性完美匹配药物研发的需求。
9.4 监管科学的 AI 化
FDA 和 EMA 正在积极探索如何将 AI 纳入监管框架。未来,AI 模型本身可能成为监管审查的对象——药企需要证明其 AI 预测模型的准确性、可解释性和可重复性,才能被接受作为监管决策的依据。
9.5 AI 制药的 democratization
随着开源工具的成熟和云计算的普及,AI 制药将不再是大型制药公司和科技巨头的专利。中小型生物技术公司和学术实验室也将能够利用强大的 AI 工具进行药物发现。云化 AI 制药平台(如 AWS HealthOmics、Google Cloud Life Sciences)将大幅降低进入门槛。
AI 制药的终极愿景:让发现一款新药的成本从 10 亿美元降低到 1 亿美元,时间从 10 年缩短到 2 年——让「不可治愈」的疾病变得可治愈。这不是天方夜谭,而是正在发生的现实。
职业规划建议:如果你想在 AI 制药领域发展,跨学科能力是最核心的竞争力。纯计算机科学家需要补充生物学和化学知识,纯生物学家需要学习编程和机器学习。最理想的背景是:生物学/化学 + 计算机科学 + 数据科学的交叉学科训练。
行业风险:AI 制药行业面临**「死亡之谷」——大量的初创公司融资后无法在临床阶段交付成果。随着资本市场的理性化,未来 2-3 年可能出现行业洗牌**,缺乏临床数据验证的公司将被淘汰。从业者需要关注临床进展而非仅仅关注技术指标。