引言:AI 训练的「人类数据依赖症」
2026 年 4 月 27 日,一条新闻在 AI 社区引发地震:DeepMind 核心研究员、AlphaGo 与 AlphaZero 的主创 David Silver 宣布完成 11 亿美元融资,用于构建一个雄心勃勃的项目——「无需人类数据」的通用 AI 学习系统。
这不是一个普通的融资新闻。它指向了一个可能颠覆整个 AI 行业的根本性问题:
如果 AI 可以完全不需要人类数据来学习,那我们现在所有基于人类数据的训练方法——预训练、微调、RLHF——是否都是弯路?
当前主流 AI 训练严重依赖人类数据:
- 预训练:需要万亿 token 的人类创作文本
- 指令微调:需要人类标注的指令-回答对
- RLHF:需要人类反馈来对齐模型行为
- 数据标注:图像分类、目标检测、语音识别——每一个都需要人类标注
David Silver 的新范式是:让 AI 通过与环境交互、自我试错、自主发现规律来学习——完全不依赖人类数据。
这个想法并非凭空而来。它的源头,正是 2017 年那个让全世界震惊的项目——AlphaGo Zero。
阅读收获:
- 理解 AlphaGo Zero 自我博弈范式的核心原理
- 掌握纯自监督学习 vs 监督学习的本质区别
- 分析「通用化自我博弈」面临的技术挑战
- 用 Python 实现一个简化的自博弈训练框架
- 判断这一范式能否真正颠覆 AI 行业
一、AlphaGo Zero:那个改变了 AI 训练哲学的时刻
要理解 David Silver 的新项目,必须先回到 2017 年。
AlphaGo Zero 的震撼
2016 年,AlphaGo 击败李世石,使用了数百万人类棋谱进行训练。
2017 年,AlphaGo Zero 发布,结果更令人震惊:
AlphaGo Zero:
- 输入:只有围棋规则(没有人类棋谱)
- 训练方式:纯自我博弈
- 训练时间:3 天
- 结果:100:0 击败 AlphaGo Lee(击败李世石的版本)
零人类数据,三天超越人类千年智慧。 这在当时被认为是不可能的。
自我博弈的核心原理
graph TD
A[初始化随机策略网络] --> B[自我对弈生成数据]
B --> C[用 MCTS 搜索选择最优动作]
C --> D[存储 (状态, 策略, 结果) 三元组]
D --> E{达到训练批次?}
E -->|否| B
E -->|是| F[用存储的数据训练神经网络]
F --> G[更新策略网络和价值网络]
G --> H[新网络 vs 旧网络对弈评估]
H -->|新网络更强| I[替换旧网络]
H -->|新网络更弱| J[保留旧网络]
I --> B
J --> B
核心循环只有三步:
- 自我对弈:当前版本的 AI 和自己下棋,生成训练数据
- 训练网络:用生成的数据更新策略网络和价值网络
- 评估迭代:新版本和旧版本对弈,赢了就替换
这个过程中,没有任何人类数据参与。AI 唯一的「老师」是围棋规则和胜负结果。
为什么自我博弈能超越人类?
关键在于探索空间的差异:
| 维度 | 人类学习 | 自我博弈 AI |
|---|---|---|
| 经验来源 | 有限的棋谱和老师指导 | 无限自我对弈 |
| 探索范围 | 人类已知的定式和套路 | 可以探索人类未曾发现的策略 |
| 纠错机制 | 依赖老师指出错误 | 通过胜负结果自动发现最优策略 |
| 训练量 | 人类职业棋手约 10,000 盘 | 数百万盘,且质量更高 |
| 偏见 | 受人类围棋文化影响 | 无人类偏见,纯粹优化 |
AlphaGo Zero 最深刻的启示是:当环境规则明确、胜负评判清晰时,自我博弈可以产生超越人类的策略——不需要人类的任何经验。
二、从围棋到通用 AI:自我博弈的「通用化」挑战
AlphaGo Zero 的范式在围棋上成功了。但 David Silver 的野心远不止于此——他要让这一范式适用于通用 AI。
为什么围棋容易,通用 AI 难?
自我博弈在围棋上成功的关键条件:
- 明确的环境规则:围棋规则极其清晰
- 确定的胜负评判:赢了就是赢了,没有歧义
- 封闭的状态空间:虽然棋盘可能性很多,但规则是封闭的
- 完美的信息:双方看到的信息完全相同
而通用 AI 面临的环境完全不同:
| 条件 | 围棋 | 通用 AI 环境 |
|---|---|---|
| 规则明确性 | ✅ 极其明确 | ❌ 模糊、不完整、动态变化 |
| 胜负评判 | ✅ 清晰二元 | ❌ 多维度、主观、渐进式 |
| 状态空间 | ✅ 封闭有限 | ❌ 开放无限 |
| 信息完整性 | ✅ 完美信息 | ❌ 不完整、有噪声 |
| 奖励信号 | ✅ 即时 + 终局 | ❌ 稀疏、延迟、模糊 |
通用自我博弈的核心技术挑战
挑战一:如何定义「奖励信号」?
围棋的奖励信号很简单:赢 +1,输 -1。但通用任务呢?
- 「写一篇好文章」——什么是「好」?
- 「解决一个数学问题」——如何自动判断解法是否正确?
- 「优化一个推荐系统」——如何定义「优化」?
David Silver 的项目必须解决自动奖励函数设计的问题。
挑战二:如何构建「环境」?
自我博弈需要一个环境来交互。围棋的环境是围棋规则模拟器。通用 AI 的环境呢?
- 代码编写环境:编译器 + 测试用例
- 数学推理环境:定理证明器
- 科学研究环境:实验模拟器
- 语言理解环境:……?
挑战三:如何避免「自我强化偏见」?
如果 AI 只和自己对弈,可能会陷入「自说自话」——两个都不够聪明的 AI 互相训练,产生看似有效但实际上偏离真实目标的策略。
这就是所谓的 reward hacking(奖励黑客)——AI 找到了最大化奖励的捷径,但这个捷径并不对应真正的能力。
可能的解决方案
从已有研究看,有几个方向值得探索:
graph LR
A[自动奖励生成] --> B[基于形式化验证]
A --> C[基于对抗评估]
A --> D[基于多智能体辩论]
E[环境构建] --> F[编译器即环境]
E --> G[模拟器即环境]
E --> H[真实世界即环境]
I[防偏见] --> J[多版本自我博弈]
I --> K[引入外部验证器]
I --> L[课程学习渐进式]
- 形式化验证:用数学证明的方式验证 AI 输出是否正确(适用于代码、数学等领域)
- 对抗评估:训练一个「评判 AI」来评估「学习 AI」的输出质量
- 多智能体辩论:多个 AI 互相辩论,通过一致性检验来逼近真相
- 课程学习:从简单任务开始,逐步增加复杂度,避免早期陷入局部最优
三、11 亿美元的花法:超大规模自博弈的基础设施
自我博弈听起来优雅,但大规模实施需要惊人的基础设施。
计算需求估算
让我们做一个粗略的估算:
AlphaGo Zero 训练量:
- 4900 万盘自我对弈
- 使用 64 个 GPU + 4 个 TPU
- 训练 3 天
通用 AI 自我博弈(估算):
- 需要覆盖的领域:代码、数学、语言、推理...
- 每个领域的训练量 ≥ AlphaGo Zero
- 总训练量可能是 AlphaGo Zero 的 100-1000 倍
- 需要 GPU 数量:数千到数万级别
- 训练时间:数周到数月
11 亿美元可能如何分配
| 用途 | 估算占比 | 金额 | 说明 |
|---|---|---|---|
| 计算基础设施 | 50% | ~5.5 亿 | GPU 集群、数据中心、电力 |
| 算法研究 | 20% | ~2.2 亿 | 顶尖研究员、实验试错 |
| 环境模拟系统 | 15% | ~1.65 亿 | 各领域的交互环境构建 |
| 人才团队 | 10% | ~1.1 亿 | 从 DeepMind 等招募 RL 专家 |
| 运营储备 | 5% | ~0.55 亿 | 日常运营、不可预见支出 |
为什么需要这么多钱?
自我博弈的本质是用计算换数据——不再花成本收集和标注人类数据,而是用海量计算让 AI 自己生成数据。
这类似于 AlphaGo Zero 的逻辑:与其花几十年收集人类棋谱,不如花 3 天让 AI 自己下几千万盘棋。
但通用 AI 的「棋盘」比围棋大得多,所以需要的「对弈次数」也大得多。
四、Python 实战:实现一个简化的自博弈训练框架
让我们用一个极简的例子来理解自博弈训练的核心循环。我们将实现一个简化版的自我对弈训练,用于一个微型决策任务。
环境:一个简单的网格世界
import numpy as np
import random
from collections import deque
class GridWorld:
"""微型网格世界——智能体需要从起点走到终点"""
def __init__(self, size=5):
self.size = size
self.reset()
def reset(self):
self.agent_pos = (0, 0) # 起点
self.goal_pos = (self.size - 1, self.size - 1) # 终点
return self._state()
def step(self, action):
"""action: 0=上, 1=下, 2=左, 3=右"""
moves = [(-1,0),(1,0),(0,-1),(0,1)]
dx, dy = moves[action]
nx = max(0, min(self.size-1, self.agent_pos[0] + dx))
ny = max(0, min(self.size-1, self.agent_pos[1] + dy))
self.agent_pos = (nx, ny)
# 奖励:到达终点 +1,每走一步 -0.01
done = (self.agent_pos == self.goal_pos)
reward = 1.0 if done else -0.01
return self._state(), reward, done
def _state(self):
return np.array(self.agent_pos) / (self.size - 1)
class SimplePolicyNetwork:
"""极简策略网络:用线性层映射状态到动作概率"""
def __init__(self, state_dim=2, action_dim=4):
self.W = np.random.randn(state_dim, action_dim) * 0.1
self.b = np.zeros(action_dim)
def forward(self, state):
logits = state @ self.W + self.b
exp_logits = np.exp(logits - logits.max())
return exp_logits / exp_logits.sum()
def select_action(self, state, epsilon=0.1):
if random.random() < epsilon:
return random.randint(0, 3)
probs = self.forward(state)
return np.random.choice(4, p=probs)
def update(self, states, actions, returns, lr=0.01):
"""策略梯度更新(REINFORCE)"""
for s, a, r in zip(states, actions, returns):
probs = self.forward(s)
# 简化版策略梯度:增加好动作的概率
self.W[:, a] += lr * r * s
self.b[a] += lr * r
class SelfPlayTrainer:
"""自博弈训练器——两个相同 Agent 互相竞争学习"""
def __init__(self, env, agent_a, agent_b):
self.env = env
self.agent_a = agent_a
self.agent_b = agent_b
self.history_a = deque(maxlen=1000)
self.history_b = deque(maxlen=1000)
def play_game(self, agent1, agent2, store_a):
"""一局自我对弈:两个 Agent 竞争同一环境"""
state = self.env.reset()
states, actions, rewards = [], [], []
done = False
while not done:
# 当前回合由 agent1 执行
action = agent1.select_action(state, epsilon=0.1)
next_state, reward, done = self.env.step(action)
states.append(state)
actions.append(action)
rewards.append(reward)
state = next_state
# 计算折扣回报
returns = []
G = 0
for r in reversed(rewards):
G = r + 0.99 * G
returns.insert(0, G)
history = self.history_a if store_a else self.history_b
history.append((states, actions, returns))
return sum(rewards)
def train_step(self, n_games=100, lr=0.01):
"""一个训练步骤:多局对弈 + 批量更新"""
results = []
for i in range(n_games):
# agent_a 和 agent_b 交替先手
if i % 2 == 0:
r = self.play_game(self.agent_a, self.agent_b, store_a=True)
else:
r = self.play_game(self.agent_b, self.agent_a, store_a=False)
results.append(r)
# 用历史数据批量更新两个 Agent
for states, actions, returns in self.history_a:
self.agent_a.update(states, actions, returns, lr)
for states, actions, returns in self.history_b:
self.agent_b.update(states, actions, returns, lr)
return np.mean(results)
# === 运行自博弈训练 ===
env = GridWorld(size=5)
agent_a = SimplePolicyNetwork()
agent_b = SimplePolicyNetwork()
trainer = SelfPlayTrainer(env, agent_a, agent_b)
print("开始自博弈训练...")
for epoch in range(50):
avg_reward = trainer.train_step(n_games=100, lr=0.005)
if (epoch + 1) % 10 == 0:
print(f"Epoch {epoch+1}: 平均回报 = {avg_reward:.3f}")
print("\n训练完成!自博弈让两个 Agent 通过竞争不断提升策略。")五、如果成功:AI 行业的范式转移
假设 David Silver 的项目取得了类似 AlphaGo Zero 的成功——AI 通过纯自监督学习达到了当前基于人类数据训练模型的水平甚至超越。
这意味着什么?
范式转移的五个维度
graph TD
**A[当前范式**:人类数据驱动] --> B[新范式:自监督自主进化]
B --> C[数据壁垒消失]
B --> D[训练成本重构]
B --> E[AI 能力上限突破]
B --> F[训练范式去中心化]
B --> G[新安全挑战]
C --> C1[不再需要垄断人类数据,小公司也能训练强模型]
D --> D1[从数据标注成本转向计算成本,边际成本随规模递减]
E --> E1[不再受限于人类知识,可能发现人类未知的策略]
F --> F1[不需要海量标注团队,计算即训练基础设施]
G --> G1[奖励黑客风险增加,需要新的安全对齐方法]
- 数据壁垒被打破
当前 AI 行业的护城河很大程度上是数据垄断——谁有更多高质量数据,谁就有更好的模型。如果 AI 可以自己生成训练数据,这一护城河将不复存在。
- 训练成本结构改变
从「收集 + 标注 + 训练」的三段式成本,变为「计算即训练」。前期投入高(计算基础设施),但边际成本随规模递减——训练 100 万次自我对弈的成本远低于标注 100 万条人类数据。
- AI 能力天花板提升
人类数据本质上是人类知识的编码。如果 AI 只从人类数据学习,它的能力上限就是人类知识的上限。但如果 AI 可以通过自我探索发现人类不知道的策略,那它的天花板就是——理论上——无限的。
- 训练去中心化
不需要全球各地的标注团队,不需要爬取互联网数据,只需要足够的计算资源和明确的环境规则。这让 AI 训练在某种程度上变得更加「自给自足」。
- 新的安全挑战
一个不受人类数据约束的 AI,可能更容易出现对齐问题。当前 RLHF 的核心作用就是用人类反馈来「锚定」AI 的行为。如果没有人类数据,如何确保 AI 学习到的策略与人类价值观一致?
风险与不确定性
我们必须诚实:这个项目面临巨大的不确定性。
| 风险 | 概率 | 影响 |
|---|---|---|
| 通用奖励函数无法设计 | 高 | 致命——没有奖励信号就无法训练 |
| 环境构建成本超出预期 | 中 | 项目可能只在少数领域可行 |
| 自我强化偏见不可控 | 中 | AI 可能学到错误策略 |
| 计算需求远超预算 | 中 | 11 亿可能不够 |
| 被其他范式超越 | 低 | 但开源社区可能在其他方向更快突破 |
David Silver 的赌注是:至少在某些领域,通用自监督学习是可行的。 即使只能实现一部分,也已经足以改变游戏规则。
六、历史视角:AI 训练范式的演变
David Silver 的新项目不是凭空出现的。它是 AI 训练范式演变的下一步。
训练范式的时间线
| 年代 | 范式 | 核心思想 | 代表 |
|---|---|---|---|
| 1950s-1980s | 符号 AI | 用逻辑规则和符号推理模拟智能 | 专家系统 |
| 1980s-2000s | 统计学习 | 从数据中学习统计规律 | SVM、决策树 |
| 2000s-2010s | 深度学习 | 用神经网络自动学习特征表示 | AlexNet、Word2Vec |
| 2010s-2020s | 大规模预训练 | 用海量无标注数据预训练 + 少量标注微调 | GPT、BERT |
| 2020s | 人类反馈对齐 | 用人类偏好引导模型行为 | ChatGPT、RLHF |
| 2026+ | 纯自监督学习? | 完全不依赖人类数据,自主发现规律 | David Silver 新项目 |
每一代范式都在减少对人类标注的依赖:
符号 AI ──→ 完全人工编写规则
统计学习 ──→ 需要标注数据
深度学习 ──→ 需要标注数据,但能用无标注预训练
预训练+微调 ──→ 大量无标注 + 少量标注
RLHF ──→ 大量无标注 + 人类偏好排序
自监督学习 ──→ 零人类数据
David Silver 的项目是这个演变的终极方向——完全消除对人类数据的依赖。
为什么是 David Silver?
他是这个领域最合适的领航者:
- AlphaGo:用人类数据击败人类
- AlphaGo Zero:用零人类数据超越 AlphaGo
- AlphaZero:将同一算法推广到国际象棋和将棋
- Isomorphic Labs:将 AI 应用于蛋白质折叠(另一个规则明确、可自我评估的领域)
从围棋到蛋白质折叠,再到通用 AI——David Silver 的职业生涯就是一部「减少人类数据依赖」的进化史。
七、总结与展望
David Silver 的 11 亿美元赌注,本质上是在问一个深刻的问题:
AI 必须向人类学习吗?还是它可以自己学会一切?
如果答案是后者,那整个 AI 行业的底层逻辑将被重写。
关键判断
- 短期内:纯自监督学习可能在特定领域(代码、数学、游戏)取得突破,但很难在开放领域(创意写作、社交理解)替代人类数据训练
- 中期:混合范式更可能——自监督学习 + 少量人类引导
- 长期:如果通用自监督学习可行,它将彻底改变 AI 训练的经济模型和能力天花板
对开发者的启示
无论这个项目最终是否成功,它传递的信号是明确的:
- 关注自监督学习技术:这是减少数据依赖的核心方向
- 理解强化学习的原理:自我博弈、策略梯度、奖励设计——这些是自监督学习的基石
- 保持对范式转移的敏感:AI 行业的游戏规则每隔几年就会重写一次
正如 AlphaGo Zero 在 2017 年教会了我们一件事:当规则明确、反馈清晰时,AI 可以超越所有人类经验。
David Silver 正在赌的是:这个原则不仅适用于围棋,也适用于 AI 本身的学习方式。
来源: TechCrunch、DeepMind 研究论文、Simon Willison Blog
链接: https://techcrunch.com/2026/04/27/deepmind-david-silver-1-billion/