安全今天·Nature + 美国之音 + 华尔街日报

Nature 研究揭示:国家媒体控制已渗入全球 AI 聊天机器人训练数据

发表在《自然》杂志的同行评审研究首次证实,中国官媒宣传内容已大规模进入全球主流 AI 聊天机器人训练数据。ChatGPT、Claude、Gemini 等模型在中文提问时回答更倾向官方立场,DeepSeek 无论中英文均偏向中共立场。

这是一项具有重大战略意义的 AI 安全研究。

研究概况:

  • 发表在顶级学术期刊《自然》(Nature),题为《国家媒体控制影响大型语言模型》
  • 作者来自俄勒冈大学、普渡大学、UCSD、纽约大学和普林斯顿大学共 7 名研究人员
  • 覆盖 37 个国家的跨国审计,是首篇经同行评审证实此现象的学术研究

核心发现:

  • 训练数据渗透:在 CulturaX 中文数据集中,1.64% 的文件与中国国家协调媒体匹配,是中文维基百科占比的 41 倍
  • 政治相关最高 24%:涉及政治领导人或机构的文件,匹配率最高达 24%
  • 语言差异:ChatGPT、Claude、Gemini、Grok 在英文回答中相对中立,但切换到中文后回答更倾向北京官方立场
  • DeepSeek 特殊表现:无论中文还是英文提问,回答始终高度偏向中共官方立场,反映中国政府对本土 AI 模型的强力监管

深层机制:

  • 独立媒体需要付费订阅模式生存,但专制政府的官方宣传可以免费大规模向互联网灌输
  • 这种影响不需要任何黑客攻击——政府官方内容本就公开存在于互联网上,AI 公司爬虫自动纳入
  • 随着越来越多人依赖 AI 获取信息,各国政府将有更强动机通过管控媒体来塑造 AI 的「世界观」

来源: Nature + 美国之音
链接: https://www.voachinese.com/a/study-finds-state-media-control-shapes-ai-chatbot-responses-20260520/8152076.html