核心要点
推荐常需同时预估多目标(如 CTR、CVR、时长),任务间存在冲突
硬共享底层易产生负迁移,出现「跷跷板」(一个任务涨另一个跌)
MMoE:多个专家网络 + 每个任务独立的门控,对专家做软加权共享
PLE:显式拆分「共享专家」与「任务专属专家」,并分层渐进抽取,进一步缓解冲突
标准回答
问题:推荐精排常要同时优化多个目标(点击 CTR、转化 CVR、停留时长等)。直接 Shared-Bottom 硬共享底层网络时,相关性弱甚至冲突的任务会相互干扰,产生负迁移和跷跷板现象(seesaw)——某任务提升常以另一任务下降为代价。
MMoE(Multi-gate Mixture-of-Experts):底层放多个并行的专家网络,每个任务有自己独立的门控网络(gate),门控为各专家分配权重,对专家输出做加权组合。不同任务可侧重不同专家,实现「软共享」,比硬共享更灵活地分配共享与差异化能力。
PLE(Progressive Layered Extraction):MMoE 的所有专家被全部任务共享,仍可能纠缠。PLE 显式区分共享专家与每个任务的专属专家,任务的门控只融合「共享专家 + 自己的专属专家」,并用多层结构渐进地抽取表示。这样共享与专属信息解耦,进一步缓解负迁移与跷跷板。
常见误区
⚠️ 常见踩坑
MMoE 的关键是「每个任务一个独立门控」,不是共用一个门控;若只放一个 gate 就退化成普通 MoE,无法按任务差异化加权,缓解冲突的能力大打折扣。
追问
追问 1:什么是「跷跷板现象」,为何会发生?
多任务联合训练时一个任务指标上升、另一个下降,整体难以同时最优。根因是任务相关性低甚至梯度方向冲突,在硬共享参数上互相拉扯,共享层只能折中。
追问 2:PLE 相比 MMoE 的核心改进是什么?
MMoE 专家被所有任务共享,仍可能相互纠缠。PLE 显式拆出「共享专家」与「任务专属专家」,让专属信息走专属通道,并通过多层渐进抽取逐步分离共享与差异表示,对冲突更强的任务组合改善更明显。
延伸学习
与本题相关的知识库文章、术语、工具与行业资讯。