核心要点

  • 输入是单条氨基酸序列,输出是蛋白质全原子的三维坐标,解决蛋白质折叠这一长期难题。

  • 先做多序列比对(MSA),从同源序列的共变(进化耦合)中提取残基接触线索。

  • Evoformer 用注意力交替更新 MSA 表示与残基对表示,让序列与几何信息互相传递。

  • 结构模块端到端直接回归坐标,并输出 pLDDT 等置信度;AF2 精度接近实验测定。

标准回答

问题与输入

AlphaFold 解决的是从氨基酸序列预测蛋白质三维结构的问题。它不依赖物理模拟逐步折叠,而是把序列直接映射到原子坐标。

关键信息来源:MSA 与进化耦合

给定目标序列,先在数据库中搜索同源序列构建多序列比对(MSA)。如果两个残基在进化中总是协同突变(共变),通常意味着它们在空间上接触,这种进化耦合是预测接触图的重要信号。

核心架构

  • Evoformer:用注意力机制交替更新「MSA 表示」与「残基对(pair)表示」,让序列层面的进化信息和残基间的几何约束反复交换、相互精炼。
  • 结构模块:以不变点注意力等机制,端到端地直接输出每个残基的旋转平移,得到全原子三维坐标,而非先预测距离再重建。

输出与精度

模型同时给出 pLDDT 置信度,便于判断哪些区域可信。AF2 在 CASP 上达到接近实验(X 射线/冷冻电镜)的精度,是 AI for Science 的标志性突破。

常见误区

⚠️ 常见踩坑

AlphaFold 不是用分子动力学逐帧模拟折叠过程,而是数据驱动地一次性预测最终结构;且对缺乏同源序列(MSA 浅)的孤儿蛋白预测会明显变差。

追问

追问 1为什么 MSA 对 AlphaFold 这么关键?

MSA 提供进化耦合信号:在同源序列中协同突变的残基对,往往在三维空间中相互接触,这等价于给出大量软性距离约束。MSA 越深、越多样,接触预测越准。反之,对于没有足够同源序列的蛋白(如某些新设计或孤儿蛋白),预测置信度和精度都会下降,这也是后续工作引入语言模型表征以减少对 MSA 依赖的动机。

追问 2Evoformer 里的 pair 表示起什么作用?

pair 表示编码每对残基之间的关系(如距离、方向倾向),是连接序列信息与最终几何的桥梁。Evoformer 让 MSA 表示和 pair 表示通过注意力反复交互:序列层面的共变更新 pair,pair 又借三角不等式式的更新自洽约束几何,最终把一致的 pair 信息交给结构模块直接生成坐标。

延伸学习

与本题相关的知识库文章、术语、工具与行业资讯。