标准回答
分子表示
- SMILES 字符串:把分子写成线性字符序列,可直接套用语言模型,但语法严格,模型易生成无法解析的非法串。
- 分子图:原子作节点、化学键作边,用 GNN(如 GCN/GAT/MPNN)做消息传递,天然编码拓扑连接性,是主流表示。
- 3D 构象:在图基础上加入原子空间坐标,需用等变网络处理旋转平移不变性,适合对接、能量、构象敏感的性质。
分子生成
- VAE:把分子编码到连续隐空间,便于在隐空间做梯度优化和插值,再解码出分子。
- 扩散模型:对分子图或 3D 坐标逐步加噪再学去噪,可生成高质量结构,3D 扩散在构象/对接生成上表现突出。
- 自回归:按 SMILES token 或逐原子/逐键顺序生成,建模简单、易加约束。
关键考量
无论哪种方法,都必须保证化学有效性(满足化合价规则)与合成可行性,常通过受约束解码、有效性掩码或事后用逆合成/SA score 筛选实现。
常见误区
⚠️ 常见踩坑
别只看「生成像分子」:SMILES 生成易产出无法解析的非法串,3D 生成需保证旋转平移等变性,且看似合理的分子未必能合成,有效性与可合成性必须显式约束。
追问
追问 1:为什么 3D 分子生成要强调等变性?
分子的物理性质与绝对坐标无关,只与相对几何有关:把整个分子旋转或平移后还是同一分子。若网络不具备旋转平移等变/不变性,模型会把同一分子的不同摆放当成不同样本,浪费容量且泛化差。因此 3D 生成与性质预测常用等变图神经网络(E(3)-equivariant),保证输出随输入坐标一致变换。
追问 2:SMILES 生成和图生成各有什么取舍?
SMILES 生成可直接复用成熟的序列模型、训练简单、采样快,但语法脆弱、易产生非法串,且一个分子有多种 SMILES 写法带来歧义。图生成天然保证连接性、可逐步施加化合价约束以提高有效性,但建模更复杂、需处理节点/边的生成顺序与同构问题。实际选型取决于任务是否需要几何信息与对有效率的要求。
延伸学习
与本题相关的知识库文章、术语、工具与行业资讯。