核心要点

  • 交付可复现的训练代码、数据快照、环境依赖、模型卡与评测报告

  • 明确推理契约:输入输出 schema、特征来源与预处理、延迟/吞吐 SLA

  • 对齐训练-服务特征一致性,杜绝线上线下特征口径不一致

  • 配冒烟测试 + 灰度发布 + 回滚预案,避免「扔过墙」式交接

标准回答

交付物要可复现

研究侧不能只丢一个权重文件。要交付完整可复现包:训练代码、数据版本/快照、环境依赖(容器镜像或锁定版本)、超参配置、模型卡(用途、训练数据、指标、局限)和离线评测报告。

约定推理契约

和工程明确推理契约:输入输出 schema、特征如何获取与预处理、批/实时模式、延迟与吞吐 SLA、依赖的外部服务。这是双方协作的界面。

特征一致性是头号坑

训练用离线批处理特征,服务用实时特征,口径极易不一致(training-serving skew)。最好共享一套特征逻辑或特征平台,并用同一份样本做线上线下比对验证。

安全上线

上线前跑冒烟测试和影子流量验证;用灰度/A-B 逐步放量观察指标;准备回滚预案。整个过程要文档化,避免研究「扔过墙」、工程接不住。

常见误区

⚠️ 常见踩坑

研究只交付权重和一份 notebook,缺环境/数据/契约,工程无法复现;以及忽视训练-服务特征不一致,导致离线指标好但线上效果崩。

追问

追问 1如何保证训练和线上推理结果一致?

三个手段:一是统一特征计算逻辑,用特征平台让训练和服务共用同一套转换代码,避免两边各写一遍;二是固化预处理与版本(分词器、归一化参数、特征版本)随模型一起发布;三是上线前用同一批样本跑线上线下双跑比对,差异超阈值就拦截。

追问 2交接时模型卡应该包含什么?

模型卡应包含:模型用途与适用边界、训练数据来源与时间范围、关键评测指标(含分群表现)、已知局限与失败模式、推理输入输出规范、性能与资源需求、版本与负责人。目的是让工程和后续维护者无需追问就能理解模型能做什么、不能做什么、怎么用。

延伸学习

与本题相关的知识库文章、术语、工具与行业资讯。