核心要点

  • 三类表示:SMILES 字符串(序列)、分子图(原子为节点、键为边,用 GNN)、3D 构象(含空间坐标)。

  • 序列表示可复用 NLP 模型但易生成非法串;图表示天然编码连接性;3D 表示保留几何,利于对接与构象敏感任务。

  • 生成方法:VAE 学连续隐空间便于优化、扩散模型逐步去噪生成图或 3D 构象、自回归逐 token/逐原子生成。

  • 核心约束是化学有效性(满足化合价)与合成可行性,需在生成时显式保证或后置筛选。

标准回答

分子表示

  • SMILES 字符串:把分子写成线性字符序列,可直接套用语言模型,但语法严格,模型易生成无法解析的非法串。
  • 分子图:原子作节点、化学键作边,用 GNN(如 GCN/GAT/MPNN)做消息传递,天然编码拓扑连接性,是主流表示。
  • 3D 构象:在图基础上加入原子空间坐标,需用等变网络处理旋转平移不变性,适合对接、能量、构象敏感的性质。

分子生成

  • VAE:把分子编码到连续隐空间,便于在隐空间做梯度优化和插值,再解码出分子。
  • 扩散模型:对分子图或 3D 坐标逐步加噪再学去噪,可生成高质量结构,3D 扩散在构象/对接生成上表现突出。
  • 自回归:按 SMILES token 或逐原子/逐键顺序生成,建模简单、易加约束。

关键考量

无论哪种方法,都必须保证化学有效性(满足化合价规则)与合成可行性,常通过受约束解码、有效性掩码或事后用逆合成/SA score 筛选实现。

常见误区

⚠️ 常见踩坑

别只看「生成像分子」:SMILES 生成易产出无法解析的非法串,3D 生成需保证旋转平移等变性,且看似合理的分子未必能合成,有效性与可合成性必须显式约束。

追问

追问 1为什么 3D 分子生成要强调等变性?

分子的物理性质与绝对坐标无关,只与相对几何有关:把整个分子旋转或平移后还是同一分子。若网络不具备旋转平移等变/不变性,模型会把同一分子的不同摆放当成不同样本,浪费容量且泛化差。因此 3D 生成与性质预测常用等变图神经网络(E(3)-equivariant),保证输出随输入坐标一致变换。

追问 2SMILES 生成和图生成各有什么取舍?

SMILES 生成可直接复用成熟的序列模型、训练简单、采样快,但语法脆弱、易产生非法串,且一个分子有多种 SMILES 写法带来歧义。图生成天然保证连接性、可逐步施加化合价约束以提高有效性,但建模更复杂、需处理节点/边的生成顺序与同构问题。实际选型取决于任务是否需要几何信息与对有效率的要求。

延伸学习

与本题相关的知识库文章、术语、工具与行业资讯。