Model Card 与 Datasheet 是什么？为什么需要？

Question 1

Accepted Answer

两类文档 - Model Card（模型卡）：随模型发布的结构化说明，覆盖预期用途、不当用途、训练/评测数据概况、按子群体（如性别、语言）拆分的性能、已知局限与伦理风险。 - Datasheet for Datasets（数据集说明书）：随数据集发布，记录采集动机、来源与方式、样本构成、标注与清洗流程、授权/许可、隐私与偏见等已知问题。 为什么需要 - 透明度：让下游使用者了解模型「在什么条件下、对谁、表现如何」，而非只看一个总分。 - 问责性：明确责任边界与适用范围，出问题时可追溯设计与数据决策。 - 降低误用：写清「不该用于」的场景（如高风险医疗、执法决策），减少超范围部署。 多方视角与局限 监管（如透明度要求）和社区都在推动其标准化。但文档是自述性的，质量参差、可能避重就轻，需配合独立审计与第三方评测才更可信。

Question 2

Model Card 和 Datasheet 的关注点有何不同？

Accepted Answer

Model Card 聚焦「模型」——用途、分群性能、局限与风险；Datasheet 聚焦「数据集」——来源、构成、采集与标注流程、授权和偏见。前者帮助判断模型是否适用，后者帮助判断数据是否合规、是否会把偏见带入模型。二者互补，共同支撑全链路透明。

Question 3

只靠厂商自述的 Model Card 够可信吗？

Accepted Answer

不够。Model Card 是自述文档，存在选择性披露、口径不一、更新滞后等问题。要提升可信度，需配合可复现的评测条件、独立第三方审计、外部红队结果，以及监管要求的透明度报告，让披露可被验证而非仅凭自说自话。

Model Card 与 Datasheet 是什么？为什么需要？

核心要点

标准回答

常见误区

追问

延伸学习