💡

文章摘要

2026 年,生成式 AI 正在将蛋白质设计从「发现自然已有的蛋白质」推向「从零创造自然界不存在的蛋白质」。从 AlphaFold 的结构预测到 RFdiffusion 的从头设计,从蛋白质语言模型到功能导向的可编程设计管线,本文系统梳理 AI 蛋白质设计的技术演进、核心架构、实战工具链、安全治理以及 2026 年的最新突破。

1从预测到创造:蛋白质设计的范式跃迁

蛋白质是生命的分子机器。 它们催化化学反应(酶)、传递信号(激素)、抵御病原体(抗体)、构建细胞结构(细胞骨架)——几乎所有生命过程都由蛋白质驱动。理解并设计蛋白质,就是理解并重新编程生命本身。

蛋白质设计的核心挑战在于其组合爆炸性。一个典型的蛋白质由 100-500 个氨基酸组成,每个位置可以是 20 种氨基酸中的任意一种。这意味着一个 300 残基的蛋白质有 20^300 ≈ 10^390 种可能的序列——远超宇宙中的原子数量(约 10^80)。在这个天文数字般的序列空间中,具有特定功能的蛋白质只是极小的子集。

传统蛋白质设计方法(同源建模、理性设计、定向进化)依赖对已知蛋白质家族的理解,本质上是在已有序列空间中的局部搜索。生成式 AI 彻底改变了这个范式——它不是搜索已有的蛋白质,而是学习蛋白质的「语言」,然后创造全新的、自然界从未存在过的蛋白质。

2026 年的蛋白质设计市场已达到 15 亿美元(2025 年),预计到 2033 年将增长至 69.8 亿美元(CAGR 21.2%)。这个增长背后的技术驱动力是什么?让我们从技术演进的源头开始梳理。

图表加载中…

💡 一句话理解

理解蛋白质设计的层次结构很重要:序列(sequence)→ 结构(structure)→ 功能(function)。AlphaFold 解决了「序列→结构」的预测问题,而 2026 年的生成式模型正在解决「功能→结构→序列」的逆向设计问题。

⚠️ 常见踩坑

蛋白质设计是典型的「双用途技术」(Dual-Use)。同一套工具可以设计治疗癌症的药物蛋白,也可以设计有害的生物毒素。2026 年 4 月 Frontiers in Microbiology 发表的综述专门讨论了这一问题。

2技术基石:从 AlphaFold 到生成式模型

AlphaFold 的革命性贡献(2020-2024)

DeepMind 的 AlphaFold 系列是蛋白质 AI 的奠基之作。AlphaFold 2(2020)在 CASP14 上实现了原子级别的蛋白质结构预测精度,解决了生物学 50 年来的重大挑战。AlphaFold 3(2024)进一步扩展到蛋白质-DNA、蛋白质-RNA、蛋白质-配体复合物的结构预测。

但 AlphaFold 本质上是「预测器」而非「设计器」——它告诉你一个给定序列的蛋白质会折叠成什么结构,但不告诉你如何设计一个具有特定功能的全新蛋白质。

从预测到生成的关键突破:

RFdiffusion(2023,David Baker 实验室):将扩散模型Diffusion Model)引入蛋白质骨架构象生成。RFdiffusion 不是从序列出发,而是直接从目标结构出发,生成能够折叠成该结构的蛋白质骨架。这相当于从「翻译」跨越到了「写作」。

ProteinMPNN(2022):解决了「反向折叠」问题——给定一个蛋白质骨架结构,预测最优的氨基酸序列。RFdiffusion + ProteinMPNN 构成了 2024-2025 年蛋白质设计的主流管线:先用扩散模型生成骨架,再用 ProteinMPNN 设计序列。

蛋白质语言模型(Protein Language Models, PLM):受 GPT 等语言模型启发,科学家开始用 Transformer 架构学习蛋白质的「语言」。蛋白质序列可以类比为文本——20 种氨基酸是「字母」,蛋白质是「句子」。PLM 通过学习数百万条进化序列的统计模式,捕获了蛋白质的结构约束和功能信息。

2026 年的关键进展是 多模态可编程蛋白质设计框架——Georgia Tech 的研究团队构建了从功能规格出发的多模态 GenAI 框架,研究者可以指定设计意图(如「结合目标 X、满足稳定性约束 Y」),系统自动引导生成过程。

图表加载中…

💡 一句话理解

RFdiffusion 的开源代码可在 GitHub 上获取(https://github.com/RosettaCommons/RFdiffusion)。如果你有 GPU 资源,可以在几小时内生成数百个候选蛋白质骨架。

⚠️ 常见踩坑

RFdiffusion 生成的骨架需要通过 ProteinMPNN 设计序列,再用 AlphaFold 验证折叠结构是否与目标一致。这是一个迭代过程,不是一次性生成。

32026 年前沿突破:BindCraft 与自动化结合蛋白设计

2026 年 5 月,Nature Communications Biology 发表了一篇里程碑式的综述,系统总结了 AI 在蛋白质结合蛋白(Protein Binder)设计领域的最新突破。结合蛋白是能够特异性结合目标分子(如病毒蛋白、过敏原、癌症标志物)的设计蛋白,是药物开发的核心工具。

BindCraft 平台是这一领域的代表性成果。它实现了一个完整的自动化结合蛋白设计管线:

  1. 目标表征:输入目标蛋白的结构(如尘螨过敏原 Der f 7)
  2. 结合位点预测:AI 分析目标表面,识别最适合结合的区域(表位)
  3. 骨架生成:RFdiffusion 生成能够匹配结合位点的蛋白骨架
  4. 序列设计:ProteinMPNN 为骨架设计最优序列
  5. 结构验证:AlphaFold 预测设计蛋白的折叠结构,验证结合界面是否正确
  6. 亲和力优化:通过多轮迭代优化结合强度

BindCraft 的成果令人瞩目:它成功设计了针对多种目标的结合蛋白,包括尘螨过敏原 Der f 7(PDB: 9AHF),从目标输入到候选蛋白设计仅需数天——而传统方法需要数月甚至数年。

Adaptyv Bio 的 AI Agent 实验室自动化同样值得关注。在 2026 年初的尼帕病毒(Nipah Virus)结合蛋白设计挑战中,Adaptyv Bio 展示了 AI Agent 驱动的自动化实验室——AI 不仅设计蛋白质,还自动编排实验验证流程,实现了「设计-构建-测试」的闭环。

Manifold Bio 的直接体内(Direct-to-Vivo)平台将 AI 蛋白质设计推向了新维度:他们在活体系统中同时测试数千个设计蛋白,成功发现了能够穿越血脑屏障的功能性脑穿梭蛋白。

💡 一句话理解

如果你对结合蛋白设计感兴趣,建议从 BindCraft 的开源代码入手。它封装了 RFdiffusion + ProteinMPNN + AlphaFold 的完整管线,是目前最易用的端到端工具。

⚠️ 常见踩坑

设计蛋白从计算到实验验证仍有显著鸿沟。计算设计的结合蛋白中,约 30-50% 在实验中显示出可测量的结合活性,但只有少数达到治疗级别的亲和力。 wet-lab 验证仍然是不可替代的。

4蛋白质语言模型:从序列到功能的桥梁

蛋白质语言模型(PLM)是 2026 年蛋白质设计领域最活跃的研究方向。 与基于结构的设计方法不同,PLM 直接从蛋白质序列中学习——就像 GPT 从文本中学习一样。

PLM 的核心优势在于它捕获了进化的智慧。 一个 PLM 在数百万条蛋白质序列上训练后,隐式地学习了:

  • 哪些氨基酸替换是「安全」的(不破坏折叠)
  • 哪些位置对功能至关重要(保守位点)
  • 序列与结构之间的映射关系
  • 甚至序列与功能之间的关联

2026 年的关键 PLM 进展:

ESM3(Meta AI):第三代进化规模模型,首次在统一框架中整合了序列、结构和功能注释的联合建模。ESM3 不仅能预测结构,还能生成具有特定功能特征的蛋白质序列。

OpenProtein.AI 的 PoET(Protein Evolutionary Transformer:在蛋白质组(protein families)上训练,能够泛化进化约束,并在不重新训练的情况下整合新的实验数据。2026 年 4 月,OpenProtein.AI 被 DARPA 选为下一代蛋白质基础模型的承建方。

Cradle 的可扩展蛋白质设计平台:将生成式 AI 模型嵌入蛋白质工程师的日常工作流,实现了从概念到候选分子的可重复设计管线。Cradle 的核心创新是将复杂的 AI 模型封装为直观的界面,让非 AI 专家的生物学家也能使用生成式设计。

从结合到动态功能——PLM 的下一个前沿:

OpenProtein.AI 的 CSO Gary Lu 指出了一个重要方向:从静态结合事件走向动态功能设计。未来的 PLM 需要预测和设计蛋白质同时参与 2-4 个生物机制的能力,或者在结合后改变功能的能力。这需要模型理解蛋白质的构象动力学,而不仅仅是静态结构。

python
# 使用 ESM3 进行蛋白质序列生成的示例(伪代码)
# 实际使用需安装 esm 包并获取模型权重

import torch
from esm.models import ESM3

# 加载预训练的 ESM3 模型
model = ESM3.from_pretrained("esm3-large-2026")
model.eval()

# 条件生成:给定部分骨架约束,生成互补序列
def generate_protein_sequence(
    scaffold_structure: torch.Tensor,
    target_function: str = "binding",
    temperature: float = 0.7
) -> str:
    """
    基于骨架结构和功能约束生成蛋白质序列
    
    Args:
        scaffold_structure: 蛋白质骨架的 3D 坐标 (L, 3, 3)
        target_function: 目标功能类型
        temperature: 采样温度(越低越保守)
    
    Returns:
        生成的氨基酸序列
    """
    # 编码骨架约束
    structure_tokens = model.encode_structure(scaffold_structure)
    
    # 添加功能条件
    function_embedding = model.encode_function(target_function)
    
    # 自回归生成序列
    sequence = model.generate(
        structure_condition=structure_tokens,
        function_condition=function_embedding,
        max_length=300,
        temperature=temperature,
        top_p=0.9
    )
    
    return model.decode_sequence(sequence)

# 生成针对 SARS-CoV-2 刺突蛋白的结合蛋白序列
candidate_seq = generate_protein_sequence(
    scaffold_structure=scaffold_coords,
    target_function="sars_cov2_spike_binding",
    temperature=0.5
)
print(f"Generated sequence ({len(candidate_seq)} aa): {candidate_seq}")

💡 一句话理解

PLM 的一个重要特性是「零样本泛化」——即使模型从未见过某个蛋白质家族,它也能基于学到的进化约束生成合理的序列。这使得 PLM 特别适合设计自然界不存在的全新蛋白质。

⚠️ 常见踩坑

PLM 生成的序列必须经过结构验证(如 AlphaFold)和实验验证。PLM 可能产生「看起来合理但实际上无法折叠」的序列——这被称为 PLM 的「幻觉」问题,与 LLM幻觉类似。

5可编程蛋白质设计:功能导向的 GenAI 管线

2026 年蛋白质设计领域最重要的范式转变是从「结构导向」到「功能导向」。 传统方法先生成结构,再希望它碰巧具有所需功能。可编程蛋白质设计(Programmable Protein Design)则反过来——从功能规格出发,逆向推导结构和序列。

Georgia Tech 的可编程多模态 GenAI 框架定义了新一代设计管线的架构:

层级 1:功能规格层(Function Specification)
研究者用自然语言或结构化参数描述设计目标:

  • 结合目标:「结合 IL-6 受体的 CBD 区域,Kd < 10nM」
  • 稳定性约束:「Tm > 60°C,不在 37°C 以下聚集」
  • 表达约束:「适合大肠杆菌表达系统,密码子优化」

层级 2:约束满足层(Constraint Satisfaction)
AI 系统将功能规格转化为一组可计算的约束条件,并在生成过程中实时检查约束满足情况。

层级 3:候选生成层(Candidate Generation)
多模态模型同时生成序列、结构和预测功能,确保候选蛋白在所有维度上都满足规格。

层级 4:实验设计层(Experimental Design)
系统不仅生成候选蛋白,还设计最优的实验验证方案——哪些候选优先测试、用什么检测方法、需要多少重复。

这种「功能优先」的管线大幅减少了实验迭代次数。 传统方法可能需要 5-10 轮「设计-构建-测试」循环,而可编程管线通过精确的约束引导,通常在 1-2 轮内就能获得功能候选。

UCSF 的「Reprogramming Nature」计划(2026 年 3 月启动)是这一范式的最大规模实践。该计划由 William DeGrado 和 Tanja Kortemme 联合领导,获得 NSF 三年资助,目标是:

  • 设计可回收塑料的新型酶
  • 设计可再生燃料的生物催化剂
  • 设计更智能的细胞运输系统
图表加载中…

💡 一句话理解

可编程蛋白质设计的核心思想类似于软件工程中的「规格驱动开发」(Spec-Driven Development)——先写测试(功能规格),再写代码(蛋白质设计)。这种思路大幅提高了设计的成功率。

⚠️ 常见踩坑

功能规格的精确性直接决定设计成败。「设计一个结合蛋白」太模糊,「设计一个在 pH 7.4 条件下以 Kd < 5nM 结合 EGFR 胞外域 III 的蛋白,且在 37°C 稳定 24 小时以上」才是可执行的规格。

6安全治理:蛋白质设计 AI 的生物安全框架

2026 年 4 月,Frontiers in Microbiology 发表了一篇重要综述(Brackmann et al.),系统讨论了蛋白质设计 AI 的生物安全问题。这是该领域首次在国际同行评审期刊上进行全面的安全评估。

核心风险:双用途困境(Dual-Use Dilemma)

蛋白质设计 AI 的民主化意味着:

  • 正面应用:设计新型药物、疫苗、酶、生物材料
  • 负面应用:设计新型毒素、免疫逃逸蛋白、增强型病原体

当前的安全挑战:

  1. 开源模型的扩散:RFdiffusion、ProteinMPNN、ESM 等核心工具完全开源,任何人都可以在本地运行
  2. DNA 合成的门槛降低:商业 DNA 合成服务可以在几周内将设计序列变为实体蛋白
  3. 筛选机制的漏洞:现有的 DNA 合成筛查数据库(如美国 HHS 的筛查系统)无法覆盖 AI 设计的全新蛋白质
  4. 功能预测的精度提升:AI 不仅能设计结构,还能预测设计蛋白的功能——包括有害功能

2026 年的治理进展:

FoldMark(2025):Zhang 等人提出的蛋白质结构生成模型水印系统。FoldMark 在生成的蛋白质结构中嵌入可追溯的「分布式和进化水印」,使得 AI 设计的蛋白质可以被检测和溯源。

可继承水印(Inheritable Watermarks):Zhang 等人还提出了从 DNA 语言模型到蛋白质的可继承水印技术——即使蛋白质经过突变或优化,水印仍然可以被检测到。

DARPA 的 AI 蛋白质设计安全框架:2026 年 5 月,DARPA 在选择 OpenProtein.AI 建设下一代蛋白质基础模型的同时,要求所有受资助方必须实现:

  • 功能筛查:所有设计候选必须通过自动化有害功能预测
  • 访问控制:高级设计功能需要分级授权
  • 审计追踪:每个设计决策必须可追溯
python
# 蛋白质设计安全筛查伪代码
# 展示如何在设计管线中集成安全检查

class ProteinSafetyScreening:
    """蛋白质设计安全筛查管线"""
    
    def __init__(self):
        # 毒素数据库(NCBI、UniProt 有害蛋白条目)
        self.toxin_db = self.load_toxin_database()
        # 免疫逃逸预测模型
        self.immune_escape_predictor = load_model("immune_escape_v3")
        # 受体结合预测模型
        self.binding_predictor = load_model("broad_binding_v2")
    
    def screen_design(self, sequence: str, structure: dict) -> dict:
        """
        对设计蛋白进行安全筛查
        
        Returns:
            筛查报告,包含风险等级和建议
        """
        report = {
            "sequence_hash": hash(sequence),
            "timestamp": "2026-06-15T10:00:00Z",
            "checks": []
        }
        
        # 检查 1: 与已知毒素的序列相似性
        toxin_similarity = self.check_toxin_similarity(
            sequence, self.toxin_db
        )
        report["checks"].append({
            "name": "toxin_similarity",
            "score": toxin_similarity,
            "pass": toxin_similarity < 0.4,  # 阈值
            "risk": "HIGH" if toxin_similarity > 0.6 else "LOW"
        })
        
        # 检查 2: 免疫逃逸潜力预测
        escape_score = self.immune_escape_predictor.predict(
            sequence, structure
        )
        report["checks"].append({
            "name": "immune_escape_potential",
            "score": escape_score,
            "pass": escape_score < 0.3,
            "risk": "HIGH" if escape_score > 0.5 else "LOW"
        })
        
        # 检查 3: 广谱受体结合能力
        binding_targets = self.binding_predictor.predict(
            sequence, structure
        )
        risky_bindings = [
            t for t in binding_targets 
            if t["receptor"] in ["ACE2", "DPP4", "Neuropilin-1"]
            and t["affinity"] > 0.7
        ]
        report["checks"].append({
            "name": "broad_receptor_binding",
            "findings": risky_bindings,
            "pass": len(risky_bindings) == 0,
            "risk": "CRITICAL" if risky_bindings else "LOW"
        })
        
        # 综合风险评级
        risks = [c["risk"] for c in report["checks"]]
        if "CRITICAL" in risks:
            report["overall_risk"] = "BLOCK"
        elif "HIGH" in risks:
            report["overall_risk"] = "REVIEW_REQUIRED"
        else:
            report["overall_risk"] = "PASS"
        
        return report

💡 一句话理解

如果你是蛋白质设计工具的开发者,建议在工具中内置安全筛查模块。这不仅是伦理责任,也可能成为未来的合规要求。

⚠️ 常见踩坑

生物安全不等于阻止科学进步。有效的治理应该区分「能力获取」(capability access)和「能力使用」(capability use)——让合法研究者获得工具,同时建立检测和威慑机制。

7产业生态:从实验室到市场的商业化路径

AI 蛋白质设计正在快速从学术研究走向商业应用。 2025 年全球市场规模约 15 亿美元,预计 2033 年达到 69.8 亿美元。

2026 年的核心玩家和商业模式:

Generate:Biomedicines:端到端的 AI 蛋白质药物开发平台。从计算设计到临床前验证,聚焦免疫学和肿瘤学。已与多家大型药企建立合作。

Cradle:蛋白质工程软件平台,将生成式 AI 嵌入生物学家的日常工作流。商业模式是 SaaS 订阅,目标客户是生物技术公司的蛋白质工程团队。

Profluent:专注于小型蛋白质(miniproteins)的 AI 设计。其 AI 模型专门优化了小型蛋白质的表达和稳定性特征。

Arzeda:工业酶和蛋白质的 AI 设计平台,聚焦可持续化学品和材料领域。

DenovAI Biotech:保加利亚的 AI 蛋白质设计公司,专注于从头设计的抗体和治疗蛋白。

Synbio Technologies:合成生物学工具链提供商,将 AI 蛋白质设计与 DNA 合成服务整合。

Anthropic 的生物学布局:2026 年 5 月,Anthropic(Claude 的开发商)被报道正在招聘生物学家、建设湿实验室,并大规模押注药物发现。这标志着 AI 实验室巨头正在从纯计算走向「AI + 湿实验室」的垂直整合。

关键商业化趋势:

  1. 从工具到平台:公司不再只卖软件,而是提供「设计即服务」(Design-as-a-Service)
  2. 湿实验室整合:纯计算公司正在建设或收购实验验证能力
  3. 垂直领域聚焦:通用蛋白质设计平台正在分化为治疗、工业酶、农业等垂直领域
  4. 数据飞轮:拥有最多实验验证数据的公司正在建立竞争壁垒

💡 一句话理解

如果你想进入 AI 蛋白质设计领域创业,最有价值的切入点可能是「实验数据平台」——连接计算设计和湿实验室验证的数据基础设施。这个领域目前严重碎片化。

⚠️ 常见踩坑

AI 蛋白质设计的商业化面临一个核心矛盾:开源工具的普及降低了技术门槛,但也使得差异化竞争变得困难。纯技术壁垒不可持续,数据和湿实验室能力才是真正的护城河。

8未来展望:2026-2030 的技术路线图

短期(2026-2027):

  • 多模态蛋白质基础模型将成为标配。ESM3 的后继模型将统一序列、结构、功能、动力学的联合建模
  • 闭环自动化实验室将从先锋项目走向标准化。AI 设计 → 机器人构建 → 自动化测试 → 数据反馈的完整循环将在 48 小时内完成
  • 蛋白质设计的安全框架将逐步建立。类似 AI 安全中的 RLHF,蛋白质设计将发展出「功能约束对齐」技术

中期(2027-2028):

  • 动态蛋白质设计将成为新前沿。设计能够改变构象、响应环境刺激、执行多步机械运动的蛋白质
  • 细胞级蛋白质系统设计。不是设计单个蛋白质,而是设计整个蛋白质交互网络——相当于编程细胞的「操作系统」
  • 个性化蛋白质药物。基于患者特定的基因组和免疫组数据,设计个性化的治疗蛋白

长期(2029-2030):

  • 从头设计分子机器。蛋白质纳米马达、蛋白质逻辑门、蛋白质传感器——将蛋白质作为计算和机械元件
  • 跨物种蛋白质设计。设计能够在不同生物体中工作的通用蛋白质——打破物种屏障
  • 蛋白质设计与量子计算结合。利用量子模拟精确计算蛋白质的量子效应(如酶催化中的量子隧穿)

蛋白质设计的终极愿景是实现对生命分子机器的完全编程能力——就像我们编程计算机一样编程生物学。2026 年,我们正站在这个愿景的起点。

图表加载中…

💡 一句话理解

关注 DARPA 和 NSF 的资助方向是预判蛋白质设计技术趋势的好方法。2026 年 DARPA 选择 OpenProtein.AI 建设下一代蛋白质基础模型,信号非常明确——美国政府正在将蛋白质设计视为战略技术。

⚠️ 常见踩坑

蛋白质设计的进展速度可能超出预期。2020 年 AlphaFold 2 发布时,很多人认为蛋白质设计还需要 20 年才能达到实用水平。但仅仅 6 年后,我们已经在设计临床级的治疗蛋白了。