AI 行业2026-05-10 20:00·凤凰网科技

Anthropic 被曝大肆购买古籍:扫描蒸馏后立即销毁,训练数据获取方式引争议

凤凰网科技报道,Anthropic 被曝大量购买历史书籍,扫描后进行知识蒸馏然后立即销毁实体书。这种训练数据获取方式在 AI 行业引发新的伦理讨论。

Anthropic 的「古籍蒸馏」策略

2026 年 5 月 10 日,凤凰网科技报道 Anthropic 的训练数据获取新方式。

操作方式

  • 购买古籍:大量购入历史书籍和文献
  • 扫描蒸馏:对实体书进行扫描和知识蒸馏
  • 销毁实体:蒸馏完成后销毁实体书

行业讨论

这种做法引发了关于 AI 训练数据获取伦理的新一轮讨论:

  1. 文化遗产保护:历史书籍具有文化价值,销毁是否合适?
  2. 数据透明度:AI 公司应公开训练数据来源和处理方式
  3. 成本效益:相比购买数字版权,这种方式是否真的更经济?

背景

此前 talkie-1930 项目使用 1931 年前的公共领域文本训练语言模型,证明了历史语料在 AI 训练中的价值。Anthropic 的做法可能是为了获取高质量的公共领域语料。

来源: 凤凰网科技
链接: https://tech.ifeng.com/

📰 原始来源

https://tech.ifeng.com/