核心要点
能写出传播公式:H^(l+1) = σ( D̃^-1/2 Ã D̃^-1/2 H^(l) W^(l) ),其中 Ã = A + I(加自环)
能解释对称归一化:D^-1/2 A D^-1/2 按节点度数归一,抑制高度数节点主导、稳定数值
能说明本质:它是谱域图卷积的一阶切比雪夫近似,等价于固定权重的邻居加权平均
能指出典型用途:半监督节点分类,只用少量标签即可借结构传播标签信息
标准回答
聚合方式(独占一行)
GCN 的每一层用对称归一化邻接矩阵对邻居(含自身)做加权平均,再经线性变换与非线性激活:(H^{(l+1)} = \sigma(\tilde{D}^{-1/2} \tilde{A} \tilde{D}^{-1/2} H^{(l)} W^{(l)}))。
关键设计
(\tilde{A} = A + I) 加自环,保证更新时也包含节点自身特征。(\tilde{D}^{-1/2} \tilde{A} \tilde{D}^{-1/2}) 是对称归一化:用度数 (d) 把每条边的权重缩放为 (1/\sqrt{d_i d_j}),既做了归一化避免高度数节点的特征量级失控,又保持矩阵对称、数值稳定。
理论来源与用途
它由谱域图卷积(基于图拉普拉斯特征分解)经一阶切比雪夫多项式近似化简而来,因此每个邻居的权重是固定的、只由度数决定,不可学习。GCN 最经典的应用是半监督节点分类:在 Cora、Citeseer 等引文网络上,仅用每类几个标签,靠图结构把标签信息逐层传播到未标注节点。
常见误区
⚠️ 常见踩坑
别忘了加自环(A+I),否则更新会丢掉节点自身特征;也别把 GCN 的边权当成可学习的——它由度数固定,这正是 GAT 要改进的点。
追问
追问 1:为什么用对称归一化 D^-1/2 A D^-1/2 而不是行归一化 D^-1 A?
行归一化 D^-1 A 只是简单平均,破坏了矩阵对称性;对称归一化让每条边权为 1/√(d_i·d_j),同时考虑两端度数,保持对称且谱半径有界,数值更稳定,也更贴合谱域卷积的推导。
追问 2:GCN 是转导式还是归纳式?有何局限?
原始 GCN 是转导式(transductive),训练时用到了整张图的邻接矩阵,难以直接泛化到训练时未见的新节点或新图。GraphSAGE 通过邻居采样 + 聚合函数把它改造成归纳式来解决这一点。
延伸学习
与本题相关的知识库文章、术语、工具与行业资讯。