分子表示与分子生成有哪些方法？

Question 1

分子表示与分子生成有哪些方法？

Accepted Answer

分子表示 - SMILES 字符串：把分子写成线性字符序列，可直接套用语言模型，但语法严格，模型易生成无法解析的非法串。 - 分子图：原子作节点、化学键作边，用 GNN（如 GCN/GAT/MPNN）做消息传递，天然编码拓扑连接性，是主流表示。 - 3D 构象：在图基础上加入原子空间坐标，需用等变网络处理旋转平移不变性，适合对接、能量、构象敏感的性质。 分子生成 - VAE：把分子编码到连续隐空间，便于在隐空间做梯度优化和插值，再解码出分子。 - 扩散模型：对分子图或 3D 坐标逐步加噪再学去噪，可生成高质量结构，3D 扩散在构象/对接生成上表现突出。 - 自回归：按 SMILES token 或逐原子/逐键顺序生成，建模简单、易加约束。 关键考量 无论哪种方法，都必须保证化学有效性（满足化合价规则）与合成可行性，常通过受约束解码、有效性掩码或事后用逆合成/SA score 筛选实现。

Question 2

为什么 3D 分子生成要强调等变性？

Accepted Answer

分子的物理性质与绝对坐标无关，只与相对几何有关：把整个分子旋转或平移后还是同一分子。若网络不具备旋转平移等变/不变性，模型会把同一分子的不同摆放当成不同样本，浪费容量且泛化差。因此 3D 生成与性质预测常用等变图神经网络（E(3)-equivariant），保证输出随输入坐标一致变换。

Question 3

SMILES 生成和图生成各有什么取舍？

Accepted Answer

SMILES 生成可直接复用成熟的序列模型、训练简单、采样快，但语法脆弱、易产生非法串，且一个分子有多种 SMILES 写法带来歧义。图生成天然保证连接性、可逐步施加化合价约束以提高有效性，但建模更复杂、需处理节点/边的生成顺序与同构问题。实际选型取决于任务是否需要几何信息与对有效率的要求。

分子表示与分子生成有哪些方法？

核心要点

标准回答

常见误区

追问

延伸学习