Anthropic 的「古籍蒸馏」策略
2026 年 5 月 10 日,凤凰网科技报道 Anthropic 的训练数据获取新方式。
操作方式
- 购买古籍:大量购入历史书籍和文献
- 扫描蒸馏:对实体书进行扫描和知识蒸馏
- 销毁实体:蒸馏完成后销毁实体书
行业讨论
这种做法引发了关于 AI 训练数据获取伦理的新一轮讨论:
- 文化遗产保护:历史书籍具有文化价值,销毁是否合适?
- 数据透明度:AI 公司应公开训练数据来源和处理方式
- 成本效益:相比购买数字版权,这种方式是否真的更经济?
背景
此前 talkie-1930 项目使用 1931 年前的公共领域文本训练语言模型,证明了历史语料在 AI 训练中的价值。Anthropic 的做法可能是为了获取高质量的公共领域语料。
来源: 凤凰网科技
链接: https://tech.ifeng.com/
📰 原始来源
https://tech.ifeng.com/