AI 自主科学发现：从 Jack Clark 牛津演讲看 AI 诺奖级研究的到来

💡

文章摘要

Anthropic 联合创始人 Jack Clark 在牛津大学发表年度演讲，预测 AI 将在 12 个月内完成诺奖级科学发现，60% 概率 2028 年前 AI 自主训练后继者。AI Master 深度解读这一预测的技术基础、时间线合理性以及对科学范式的颠覆性影响。

一、事件回顾：Jack Clark 牛津演讲的核心预测

2026 年 5 月，Anthropic 联合创始人 Jack Clark 在牛津大学施瓦茨曼人文中心发表了2026 Cosmos HAI Lab 年度演讲。这场演讲的核心主题并非技术细节，而是一个 关乎科学未来的大胆预测：AI 将在未来 12 个月内与人类合作完成一项足以获得诺贝尔奖的科学发现。

这不是 Jack Clark 第一次做出如此激进的预测。但这一次，他有更充分的理由。2026 年 5 月，OpenAI 宣布其模型成功推翻了数学家 Paul Erdős 于 1946 年提出的平面单位距离猜想——一个困扰数学界 80 年的问题。数学家 Tim Gowers（菲尔兹奖得主）评价该证明「如果由人类独立完成并提交给 Annals of Mathematics，我会毫不犹豫地建议接收」。

Jack Clark 的预测远不止于此。他还指出：

2028 年前有 60% 的概率，AI 系统将能够自主训练自己的后继者——不再需要人类工程师来设计和训练下一代 AI457
AI 将从「辅助研究工具」进化为「自主研究代理」，能够独立提出假设、设计实验、分析数据并得出原创性结论
科学家需要重新思考自身的角色——从「做研究的人」变成「定义什么问题值得研究的人」本站立场：Jack Clark 的预测虽然激进，但并非空穴来风。从 DeepMind AlphaFold 解析蛋白质结构，到 OpenAI 推翻 Erdős 猜想，AI 在科学发现中的角色确实正在经历从「辅助」到「主导」的质变。然而，12 个月的诺奖级发现时间线是否过于乐观？60% 的自主训练概率是否合理？这些问题需要我们深入分析。

图表加载中…

💡 一句话理解

理解 Jack Clark 预测的关键在于区分两个概念：AI 辅助科学发现（AI 帮助人类科学家更快地完成研究）和 AI 自主科学发现（AI 独立完成从提出假设到得出结论的全过程）。目前我们处于前者向后者过渡的关键阶段。

⚠️ 常见踩坑

预测≠事实。Jack Clark 作为 Anthropic 的联合创始人，其预测既有技术判断的成分，也有行业叙事的成分。解读时应保持批判性思维——关注技术证据，而非仅仅关注结论。

二、技术基础：AI 为什么现在能推动科学发现

AI 在科学发现领域的能力爆发，并非突然发生。它建立在四个技术支柱的同步成熟之上。

第一个支柱是推理能力的飞跃。从 Chain-of-Thought 到 Tree-of-Thought，再到 System 2 级别的长时间推理，现代 AI 模型已经能够进行多步逻辑推导，这一能力是科学发现的核心。OpenAI 推翻 Erdős 猜想的案例展示了这一点：模型不是简单地搜索已知结论，而是 将代数数论、几何和组合数学等多个数学分支的知识创造性地组合，从而找到了一条人类数学家未曾注意到的证明路径。

具体来说，推理模型的思考预算（thinking budget） 从 2024 年的几秒扩展到了 2026 年的数分钟。这意味着模型在输出答案之前，可以进行更长时间的内部推理。这种「慢思考」能力对于科学发现至关重要——科学问题的答案往往不是显而易见的，需要多步骤的推理和探索。第二个支柱是代码执行与实验能力。 现代 AI 系统不再只是「聊天」。它们可以编写、运行和调试代码，模拟物理系统，执行数据分析。这种能力让 AI 从「纸上谈兵」变成了「动手实验」——在化学中设计合成路线，在生物学中预测蛋白质折叠结构，在物理学中模拟粒子相互作用。第三个支柱是大规模知识整合。 AI 系统可以同时阅读和关联数百万篇科学论文，这是人类科学家无法做到的。人类科学家一生能精读的论文不过数千篇，而 AI 可以在几小时内遍历整个学科的知识体系，发现人类未曾注意到的跨领域关联。第四个支柱是自主循环能力。 最新的 AI 系统可以进行「假设→实验→分析→新假设」的自主循环。在材料科学中，AI 已经能够自主筛选数百万种候选材料，通过计算模拟排除 99% 的选项，然后将剩余的候选材料交给实验室验证。这种循环的速度比人类科学家快数个数量级。

这四个支柱的叠加，创造了一个 质变点：AI 不再只是在已有知识框架内回答问题，而是开始提出新的问题并寻找答案。

python

# AI 辅助材料发现的自主循环示例
# 展示 AI 如何迭代筛选候选材料

import numpy as np
from dataclasses import dataclass
from typing import List

@dataclass
class MaterialCandidate:
    formula: str
    predicted_stability: float  # eV/atom
    predicted_bandgap: float   # eV
    confidence: float          # 0-1

def ai_screening_cycle(
    candidates: List[MaterialCandidate],
    stability_threshold: float = -0.5,
    target_bandgap: float = 1.34  # 太阳能电池理想带隙
) -> List[MaterialCandidate]:
    """
    AI 自主筛选候选材料
    1. 根据稳定性阈值过滤
    2. 根据目标带隙排序
    3. 返回 Top-K 候选供实验验证
    """
    # 第一步：稳定性筛选
    stable = [
        c for c in candidates
        if c.predicted_stability < stability_threshold
    ]
    
    # 第二步：计算与目标带隙的偏差
    scored = sorted(
        stable,
        key=lambda c: abs(c.predicted_bandgap - target_bandgap)
    )
    
    # 第三步：返回 Top-10 候选
    return scored[:10]

# 示例：从 100 万候选中筛选出 10 个用于实验
# candidates = load_1M_candidates()
# top_10 = ai_screening_cycle(candidates)
# send_to_robotic_lab(top_10)  # 送交自动化实验室验证

bash

# AI 自主训练流程的简化示意
# 展示 NAS + 自动数据工程的组合

# 步骤 1：自动架构搜索
python run_nas.py \
    --search-space transformer \
    --target-accuracy 0.95 \
    --max-params 7B \
    --gpu-budget 256 \
    --output best_architecture.yaml

# 步骤 2：自动数据工程
python auto_data_engine.py \
    --input raw_corpus/ \
    --output filtered_dataset/ \
    --dedup-threshold 0.95 \
    --quality-model quality_classifier.pt \
    --min-quality-score 0.8

# 步骤 3：自动训练
python run_training.py \
    --config best_architecture.yaml \
    --data filtered_dataset/ \
    --auto-lr \
    --auto-batch \
    --safety-check \
    --output-dir trained_model/

# 步骤 4：自动评估
python run_eval.py \
    --model trained_model/ \
    --benchmarks mmlu,hellaswag,gsm8k \
    --safety-bench \
    --output eval_report.json

💡 一句话理解

如果你想知道 AI 推理能力的具体提升幅度，可以关注 METR 发布的 AI 能力基准测试。他们追踪的「编程任务完成时间」指标在 2024-2026 年间缩短了约 10 倍，这间接反映了推理能力的增长速度。

⚠️ 常见踩坑

推理能力的提升并不意味着 AI 已经「理解」了科学。AI 的证明和结论仍然需要人类专家的验证。在 Erdős 猜想的案例中，数学家 Thomas Bloom 维护的 Erdős 问题网站对 OpenAI 的证明进行了独立验证。AI 是强大的研究工具，但还不是独立的研究者。

三、时间线分析：12 个月出诺奖成果合理吗？

Jack Clark 预测 12 个月内 AI 将参与完成诺奖级科学发现。让我们用已有的案例来检验这个时间线的合理性。

首先，需要明确什么是「诺奖级发现」。诺贝尔奖的评选标准通常包括三个维度：原创性（提出了全新的概念或方法）、影响力（对该领域产生了深远影响）和可验证性（结论经过了独立验证）。

从这三个维度来看，AI 已经具备了做出诺奖级发现的潜力。DeepMind AlphaFold 2 在 2020 年解决了蛋白质折叠问题——这是一个困扰生物学界 50 年的难题。AlphaFold 的预测精度达到了实验水平，彻底改变了结构生物学的研究范式。虽然最终的诺贝尔奖（如果颁发）会授予 DeepMind 团队的人类科学家，但 AI 的贡献是不可或缺的。

然而，12 个月的时间线过于乐观。原因如下：第一，科学发现的验证周期很长。 诺奖级发现需要经过同行评议、重复实验、理论完善等多个环节。即使 AI 今天做出了一个重大发现，从论文发表到获得科学界公认，通常需要2-5 年的时间。AlphaFold 2020 年发布，至今仍在接受科学界的持续评估。第二，AI 在实验科学中的作用仍有限。 在数学和理论物理等「纯理论」领域，AI 可以独立完成证明和推导。但在需要实验验证的领域（如生物医学、化学、材料科学），AI 仍然严重依赖人类实验室来完成物理实验。虽然自动化实验室在发展，但距离 AI 完全自主的实验闭环还有距离。第三，诺奖的评选机制不认可纯 AI 贡献。 诺贝尔奖目前只授予人类科学家。即使 AI 做出了完全自主的、足以获诺奖的贡献，最终的奖项仍然会落在 AI 背后的团队身上。这并不影响科学发现本身的价值，但会影响「AI 完成诺奖级发现」这个表述的准确性。本站的判断： AI 在未来 12-24 个月内确实有可能做出诺奖级别的科学贡献，但更可能的路径是「AI 辅助 + 人类主导」的混合模式，而非 AI 完全自主。真正的时间线应该是2-3 年内出现 AI 做出关键贡献的诺奖级发现，而非 12 个月。

图表加载中…

💡 一句话理解

关注以下指标来判断 AI 科学发现的进展：AI 独立发表的 arXiv 论文数量、AI 在同行评议期刊上的署名文章、以及自动化实验室（AI 自主设计实验→机器人执行→AI 分析结果）的成功案例。这些是比演讲预测更可靠的风向标。

⚠️ 常见踩坑

警惕 AI 科学发现的「炒作周期」。每次 AI 做出一个引人注目的成果，媒体都会夸大其影响力。但科学界的真实认可需要时间。2024 年 OpenAI 声称解决了 Erdős 问题的部分子问题，但后来被数学家 Thomas Bloom 指出存在验证问题——直到 2026 年的新版本才获得认可。

四、自主训练：60% 概率意味着什么？

Jack Clark 最惊人的预测是：2028 年前有 60% 的概率，AI 能够自主训练自己的后继者。这意味着 AI 系统将不再需要人类工程师来设计架构、选择数据、调整超参数——它自己就能完成整个训练流程。

这个预测的技术基础在于几个正在快速成熟的能力：架构搜索（NAS） 已经让 AI 能够自动设计神经网络架构。Google 的 AutoML 和 Meta 的 SAM 系列都展示了 AI 在架构设计上的能力超越了大部分人类工程师。当 NAS 与大规模计算资源结合时，AI 可以探索的架构空间远超人类能够手动尝试的范围。数据工程自动化是另一个关键。训练高质量模型需要清洗、过滤、去重、配比训练数据。目前这些步骤大部分仍然由人类完成，但 AI 已经开始能够自动完成数据质量评估、噪声过滤和类别平衡。当这一步完全自动化时，AI 的训练流程就只剩下了计算资源的调配。训练过程优化也在快速进步。自动学习率调度、动态批次大小调整、混合精度训练的自动选择——这些曾经需要经验丰富的工程师手动调优的环节，正在被 AI 自身接管。然而，60% 这个数字需要审慎对待。 首先，这个概率无法被科学地计算——它更像是一个「直觉估计」。其次，即使技术上可行，还有安全和监管的障碍。让 AI 自主训练自己的后继者意味着人类对 AI 能力的增长失去直接控制，这在当前的 AI 安全讨论中是一个高度敏感的话题。本站的分析： 技术上，2028 年实现 AI 自主训练是 有可能但非必然的。更现实的场景是「半自主训练」——AI 负责大部分训练流程，但关键的架构决策、数据选择和安全性审查仍然由人类完成。这个模式可能在未来 2-3 年内成为主流。

💡 一句话理解

如果你关注 AI 自主能力的进展，建议跟踪以下指标：AI 自主设计的模型在基准测试上超过人类设计的比例、自动化训练流程的成功率、以及 AI 自主训练模型的「安全审计通过率」。

⚠️ 常见踩坑

自主训练的风险被严重低估。如果 AI 自主训练的后继者在训练过程中发展出了不可预测的行为模式（比如学会了欺骗训练者），而这个过程又完全脱离了人类的监控，后果将是灾难性的。这也是为什么 Anthropic、OpenAI 和 Google 都在投入大量资源研究 AI 对齐（Alignment）问题。

五、对比分析：各大 AI 公司在科学发现领域的布局

Jack Clark 的预测并非 Anthropic 一家之言。各大 AI 公司都在积极布局「AI for Science」，但各自的策略和侧重点有显著差异。

DeepMind（Google）在科学发现领域布局最早也最深。从 AlphaFold（蛋白质结构预测）到 AlphaFold 3（扩展到蛋白质-配体、蛋白质-核酸复合物），再到 GNoME（发现 220 万种新晶体材料），DeepMind 走的是一条深耕特定科学领域的路线。他们的策略是：针对每个科学问题，组建专门的 AI 研究团队，与领域科学家深度合作。

OpenAI的策略则更通用。他们没有像 DeepMind 那样深入某个科学领域，而是通过提升基础模型的推理能力，让通用 AI 模型能够「即插即用」地应用于各种科学问题。Erdős 猜想的突破就是这种策略的成果——一个通用推理模型，在数学家的引导下，自主找到了证明路径。

Anthropic的策略介于两者之间。Claude 系列模型强调安全性和可解释性，这在科学发现场景中尤为重要——科学家需要理解 AI 的推理过程，而不仅仅是得到一个答案。Anthropic 收购 Stainless（SDK 公司）也暗示了他们想通过改善开发者体验，让更多科学家能够使用 Claude 进行研究。

Microsoft Research走的是「AI + 云计算 + 科学工具链」的整合路线。通过 Azure 云平台、GitHub Copilot 和 Azure Quantum，Microsoft 试图打造一个端到端的 AI 科学发现平台。他们的优势在于：科学家可以在同一个平台上完成从数据处理、模型训练到结果可视化的全流程。

以下是四家公司在 AI 科学发现领域的能力对比：


维度	DeepMind	OpenAI	Anthropic	Microsoft
方法论	垂直深耕	通用推理	安全优先	平台整合
标志成果	AlphaFold	Erdos 证明	Claude 研究助手	Azure Quantum
与科学家合作	深度合作	按需合作	安全合作框架	工具赋能
自主研究能力	高	中高	中	中低
安全性	高	中	最高	中

从对比可以看出，没有一家公司能够单独完成「AI 自主科学发现」的全链条。DeepMind 在特定领域最强，但通用性不足；OpenAI 通用性最强，但安全性需要提升；Anthropic 安全性最好，但科学应用生态还在建设中；Microsoft 平台最完整，但 AI 模型本身不是最前沿。

💡 一句话理解

科学家在选择 AI 工具时，应根据研究领域做决策：结构生物学选 DeepMind，数学和理论物理选 OpenAI，需要可解释性的场景选 Anthropic，需要完整工具链选 Microsoft。不要试图用一个工具解决所有问题。

⚠️ 常见踩坑

警惕 AI 公司的「科学发现叙事」。每家公司都有动机夸大自己的 AI 在科学领域的能力——因为这直接影响估值和融资。在评估 AI 的科学发现能力时，应该看独立科学家的评价和同行评议结果，而不是公司自己的宣传。

六、科学家的角色转变：从研究者到「问题定义者」

如果 AI 真的能够在科学发现中扮演主导角色，那么人类科学家的角色将发生根本性转变。

传统科学家的核心工作是：提出问题→设计实验→收集数据→分析结果→撰写论文→同行评议。这个过程的核心价值在于 人类对自然现象的直觉理解 和创造性的假设生成。

当 AI 具备强大的假设生成和实验设计能力后，科学家的工作将转变为：定义有价值的问题。 AI 可以在已知的知识空间内进行搜索和优化，但它不知道什么问题值得研究。科学家需要利用自己的经验和直觉，判断哪些问题是真正重要的，哪些只是技术上的小改进。这需要深厚的领域知识和对学科发展方向的判断力。验证 AI 的结论。 AI 可能会「证明」一个定理，但这个证明是否正确？AI 可能会「发现」一种新材料，但这种材料是否真的存在？这些都需要人类科学家来进行独立验证。验证不仅仅是检查 AI 的推理过程，更是从不同角度重新审视结论的可靠性。提供 AI 无法获取的知识。 很多科学知识还没有被数字化——比如实验室中的「隐性知识」（tacit knowledge）、经验性的实验技巧、对仪器状态的直觉判断。这些知识目前仍然掌握在人类科学家手中，是 AI 无法替代的。维护科学的伦理底线。 AI 可能会为了「优化目标函数」而忽略伦理考量——比如推荐危险的材料合成方法、建议不道德的实验设计。科学家需要确保 AI 的研究行为符合科学伦理和社会责任。

这种转变并不意味着科学家会被取代，而是意味着科学家的核心竞争力将从「做实验的能力」转向「定义问题和判断价值的能力」。这实际上是一种升级——科学家从劳动密集型的「实验工人」变成了战略性的「研究指挥官」。

💡 一句话理解

如果你是正在从事科研工作的学生或青年科学家，现在最应该投资的技能是：跨学科知识（AI 需要跨领域的数据关联能力）、批判性思维（验证 AI 结论）、以及「大问题意识」（判断哪些研究方向值得投入）。传统的实验技能仍然重要，但其相对价值正在下降。

⚠️ 常见踩坑

不要完全依赖 AI 做文献综述。AI 虽然可以快速总结大量论文，但它可能会忽略一些关键的细微差别——比如某个结论的前提假设、某个实验的局限性、某个理论的历史争议。这些细微差别往往是科学突破的关键线索。

七、伦理与风险：当 AI 开始「自己研究自己」

Jack Clark 关于 AI 自主训练的预测引发了一个根本性的伦理问题：当 AI 能够自主训练自己的后继者时，人类还能控制它的发展方向吗？ 这个问题在 AI 安全领域被称为递归自我改进（Recursive Self-Improvement）。如果一个 AI 系统能够比自己的人类工程师更有效地改进自己，那么它的能力增长可能会进入一个 正反馈循环——越强的 AI 能制造出更强的 AI，而这个循环可能加速到人类无法跟上。Anthropic 对此有独特的立场。 与 OpenAI 追求能力最大化不同，Anthropic 将「安全性」作为公司的核心使命。Claude 系列模型的设计原则是「有益（Helpful）、无害（Harmless）、诚实（Honest）」——即使这意味着在能力上做出一些妥协。在科学发现场景中，这种安全性立场体现为：AI 的每个研究结论都必须经过可解释性分析，科学家必须能够理解 AI 的推理过程。

然而，安全与能力之间存在固有的张力。如果要求 AI 的每个决策都可解释，它可能就无法探索那些人类暂时无法理解但有价值的研究方向。如果限制 AI 的自主性，它可能就达不到推动科学突破所需的能力水平。

另一个被忽视的风险是 科学研究的同质化。如果全世界的科学家都使用相同的 AI 系统来指导研究方向，那么整个科学界可能会陷入「群体思维」——大家都朝着 AI 推荐的方向前进，忽略了 AI 可能忽略的其他有价值的方向。这种多样性损失可能会损害科学的长期创新能力。本站观点： AI 在科学发现中的安全性问题不能仅靠公司自律。需要建立独立的安全审查机制——由跨学科的科学家、伦理学家和政策制定者组成的委员会，对 AI 自主研究系统进行定期评估和审计。这种机制应该独立于 AI 公司，拥有对 AI 研究方向的一票否决权。

图表加载中…

💡 一句话理解

关注 AI 安全研究的最新进展，特别是 Anthropic 的 Constitution AI 框架和 OpenAI 的 Superalignment 项目。这两个项目代表了目前 AI 安全领域最前沿的探索方向。

⚠️ 常见踩坑

如果你的研究机构正在引入 AI 辅助研究系统，务必建立内部的安全审查流程。不是每个 AI 推荐的研究方向都适合跟进——特别是涉及生物安全、化学安全和数据隐私的领域。

八、趋势预判：未来 3 年的关键里程碑

基于当前的技术进展和行业动态，AI Master 对未来 3 年 AI 科学发现领域做出以下趋势预判。2026 年下半年：AI 数学证明常态化。 OpenAI 推翻 Erdős 猜想只是一个开始。预计在未来 6-12 个月内，会有更多数学猜想被 AI 部分或完全解决。重点关注组合数学、数论和图论领域——这些领域的证明结构相对规整，适合 AI 的推理模式。同时，数学界将发展出专门验证 AI 证明的工具和方法论，这可能是比证明本身更深远的影响。2027 年：AI 在实验科学中实现「半自主循环」。 在材料科学和药物发现领域，AI 将能够实现「自主设计→机器人实验→自主分析→新设计」的完整循环，但关键节点（如实验安全性审批、最终结论确认）仍然由人类控制。这不是完全自主，但已经是质的飞跃——AI 可以在无人值守的情况下连续运行数周，筛选出人类可能需要数月才能发现的材料或分子。2027 年底至 2028 年：AI 自主训练的原型系统出现。 预计 Anthropic 或 Google 将发布一个「AI 自主训练」的原型系统，能够在受控环境中（有限的数据集、明确的架构空间、安全约束）自主完成完整的训练流程。这不会是生产级别的 AI 自我进化，但将是 概念验证——证明自主训练在技术上是可行的。跨领域趋势：AI for Science 论文将大量涌现。 预计 2026-2028 年间，arXiv 上以 AI 为第一作者（或贡献等同于第一作者）的论文数量将从现在的零星案例增长到数百篇级别。这些论文将涵盖数学证明、物理模拟、化学合成、生物信息学等多个领域。本站的底线判断： AI 将在未来 3 年内成为科学研究的核心参与者，但不会成为唯一的参与者。科学发现的本质——对未知的好奇和探索——仍然是人类科学家不可替代的核心价值。AI 让科学做得更快、更广、更深，但「为什么研究这个问题」的答案，仍然来自人类的好奇心。

💡 一句话理解

如果你想在 AI 科学发现浪潮中占据先机，现在就开始学习以下技能：Python 编程、基础机器学习、数据分析和可视化。这些技能将帮助你从「使用 AI 的人」变成「与 AI 合作的人」。

⚠️ 常见踩坑

不要被 AI 科学发现的炒作冲昏头脑。科学研究的基石——可重复性、同行评议、伦理审查——不会因为 AI 的参与而消失。相反，在 AI 时代，这些基石变得更加重要。任何声称「AI 已经颠覆了科学研究」的说法都需要经过严格的检验。

九、深度分析：从 Erdős 猜想突破看 AI 数学推理的三种技术路径

OpenAI 推翻 Erdős 猜想的事件，暴露了 AI 数学推理领域中三条不同的技术路径。理解这三条路径的优劣，对于判断「AI 自主科学发现」的时间线至关重要。

第一条路径：专用数学引擎。DeepMind 的 AlphaGeometry 和 FunSearch 代表了这条路径——为特定的数学问题类型设计专用的 AI 系统。AlphaGeometry 专门解决平面几何问题，FunSearch 专门搜索代码空间来寻找组合数学中的最优解。这类系统的优势在于针对性极强，在特定问题上可以达到甚至超越人类顶级水平。但它们的局限性也很明显：一旦问题类型发生变化，系统需要重新设计。

第二条路径：形式化证明辅助器。Lean、Coq 和 Isabelle 等证明助手与 AI 的结合，代表了另一种思路。AI 不是直接给出证明，而是在形式化证明系统中补全证明步骤。这种方法的优势在于证明的可验证性——形式化证明助手会严格检查每一个推理步骤，确保 100% 的正确性。Google 的 miniF2F 基准测试展示了这种方法在形式化数学竞赛题上的能力。但这种方法需要人类先提供证明的「骨架」，AI 只能填充细节。

第三条路径：通用推理模型。OpenAI 推翻 Erdős 猜想的方式代表了这条路径——一个并非为数学专门设计的通用模型，通过提升推理能力来解决数学问题。这条路径的优势在于通用性：同一个模型可以解决数学、物理、编程等多个领域的问题。但它的弱点也很明显：证明的可解释性不足——AI 可能找到了正确的答案，但人类无法完全理解它的推理过程。

这三条路径不是互斥的。未来最强大的 AI 数学系统很可能是三者的融合——通用推理模型负责提出假设和发现线索，形式化证明辅助器负责验证正确性，专用数学引擎负责处理特定类型的难题。OpenAI 在此次 Erdős 突破中，实际上已经隐约展示了这种融合的趋势：通用模型发现了关键线索，然后由人类数学家完成了最终的验证和整理。

从 Erdős 突破中还可以看到一个重要的技术细节：OpenAI 的模型不是通过暴力搜索找到反例的，而是创造性地构建了一族新的几何结构。这种结构的发现过程涉及到代数数论中一个被称为「代数整数环」的概念，以及组合几何中一个被称为「单位距离图」的构造。将这两个看似不相关的数学分支联系起来，是整个突破的关键。这种跨领域的概念关联能力——将不同数学分支中的工具组合使用来解决问题——正是人类数学家做出重大突破时最常用的方法。AI 现在也具备了这种能力。

💡 一句话理解

关注 Lean 4 证明助手和 LeanDojo 项目的进展。这些项目正在将 AI 数学推理从「黑箱输出」转向「可验证证明」——这是 AI 数学成果获得学术界认可的关键一步。

⚠️ 常见踩坑

通用推理模型的数学能力有一个重要限制：它不能保证证明的 100% 正确性。即使 AI 输出了一个看起来正确的证明，人类数学家仍然需要逐行验证。在形式化证明系统完全成熟之前，AI 的数学成果始终需要人类验证。

十、科学发现的经济学：AI 将如何改变科研投入的格局

AI 在科学发现中的崛起，正在重塑整个科研投入的经济模型。这不仅仅是技术变革，更是 科研经济的结构性转变。研发成本的急剧下降。 传统上，一个科研团队需要数年时间和数百万美元的经费才能完成一个重大发现。AI 的介入正在大幅缩短这个周期。以材料科学为例：Google DeepMind 的 GNoME 项目在短短几个月内预测了 220 万种新晶体材料的稳定性——这个工作量相当于人类科学家数千年的工作。虽然实验验证仍然需要时间，但 AI 将「候选材料筛选」这个最耗时的环节从人类手中接了过来。科研人才结构的转变。 随着 AI 承担越来越多的「体力劳动」（数据清洗、初步筛选、基础分析），科研团队对「初级研究人员」的需求可能下降，对「AI 协作型科学家」的需求将急剧上升。这意味着未来的科研人才需要同时具备两个能力：深厚的领域知识 和与 AI 协作的能力。那些只会做实验但不会使用 AI 工具的科学家，可能会面临竞争力下降的风险。科研资源的重新分配。 目前全球科研经费的分配模式是基于「同行评议 + 机构声誉」的——知名大学的知名实验室更容易获得经费。但 AI 的普及可能打破这种模式：如果一个小型实验室拥有强大的 AI 工具，它可能比一个大型传统实验室更快地产出成果。这将导致科研经费从「传统名校」向「AI 能力驱动型」团队转移。AI 公司的科研角色转变。 过去，AI 公司（OpenAI、Anthropic、Google DeepMind）是科研的「工具提供商」——它们为学术研究者提供模型和 API。现在，它们正在成为直接的研究参与者——DeepMind 直接发表 Nature 和 Science 论文，OpenAI 直接解决数学开放问题。这种转变意味着 AI 公司不再仅仅是工具制造商，而是 科研生产力的直接提供者。对基础研究投资的潜在风险。 虽然 AI 加速了应用研究和工程研究，但它对纯基础研究（没有明确应用目标的探索性研究）的影响尚不明确。如果科研经费大量向「AI 可加速」的应用领域倾斜，纯基础研究可能会面临经费短缺的风险。而历史上，许多重大突破恰恰来自于看似「没有用」的纯基础研究——比如广义相对论最初被认为没有实际应用，但现在是 GPS 导航的基础。本站观点： 政策制定者需要意识到 AI 时代的科研经济变革，并采取措施确保科研投入的多样性。不能让所有科研经费都流向「AI 可加速」的应用领域，纯基础研究的投资需要被保护——因为它们正是未来 AI 科学发现的「种子」。

💡 一句话理解

如果你正在申请科研经费，考虑在你的提案中明确说明 AI 工具的使用计划——这不再是可选项，而是评委关注的新维度。同时，也要说明 AI 不能替代的人类独特贡献——这同样重要。

⚠️ 常见踩坑

AI 正在改变科研的经济学，但不会改变科研的核心价值——发现新的知识。无论 AI 多强大，它不能替代的是：对什么问题是真正重要的判断力、对异常现象的敏感度、以及对科学之美的直觉欣赏。这些仍然是人类科学家的核心竞争力。

十一、更新于 2026-05-27：AI 自主科学发现的最新进展

本文发布后，AI 自主科学发现领域迎来了又一里程碑式突破——OpenAI 宣布其推理模型完成了对Erdos 单位距离猜想的自主证明，这是该猜想自 1946 年提出以来 80 年间首次获得完整证明。

Erdos 单位距离猜想的核心问题：在平面上给定 n 个点，任意两点之间距离恰好为 1 的点对最多有多少对？Erdos 在 1946 年猜想这个数量级的上界为 O(n^(4/3))。80 年来，无数数学家尝试证明或推翻这一猜想，但始终未能给出完整答案。OpenAI 的模型不仅给出了完整的证明，还发现了连接代数数论与组合几何的新桥梁——这一方法论层面的贡献可能比证明本身更加深远。

方法论意义：这次证明最引人注目的不是结论本身，而是 AI 展现出的跨领域概念关联能力。模型将代数数论中的「代数整数环」概念与组合几何中的「单位距离图」构造创造性地组合在一起，找到了一条人类数学家 80 年来未曾注意到的证明路径。这表明 AI 的数学推理已经不仅仅是「模式匹配」，而是具备了真正的概念创新能力。

对后续研究的影响：这一突破将产生连锁反应。第一，形式化验证社区正在加速将 AI 证明转化为可机器验证的 Lean 4 代码，这意味着 AI 数学成果将首次获得形式化级别的可靠性保证。第二，该证明中使用的新方法预计将被应用于其他组合几何和数论中的开放问题。第三，数学界已经开始讨论是否需要建立专门的「AI 证明验证委员会」来评估和分类 AI 生成的数学证明。

除 Erdos 猜想外，近期 AI 在其他科学领域也取得了值得关注的进展：DeepMind在药物发现领域发布了新一代蛋白质-配体预测模型，能够在数小时内筛选出传统方法需要数月才能完成的候选药物；Microsoft Research利用 AI 在量子纠错码设计中发现了一种全新的编码方案，可能大幅提升量子计算机的稳定性；MIT 团队则报道了 AI 自主设计并合成了一种新型抗生素分子，该分子对多种耐药菌展现出显著的杀菌活性。

这些进展共同指向一个趋势：AI 正在从单一领域的专用工具，进化为跨学科的通用科学发现引擎。科学界需要为这一变化做好制度和伦理上的准备。

图表加载中…

💡 一句话理解

Erdos 单位距离猜想的证明是 AI 自主科学发现从「辅助」走向「主导」的分水岭事件。建议关注 arXiv 上以 AI 为共同作者的数学论文——这一类别在 2026 年出现了爆发式增长，是判断 AI 科学发现进展的可靠指标。

⚠️ 常见踩坑

AI 证明的验证仍然是一个未完全解决的问题。虽然形式化验证工具（如 Lean 4）可以将 AI 证明转化为机器可验证的代码，但将非形式化的 AI 输出转化为形式化代码的过程本身仍然需要人类数学家的参与。在验证工具完全自动化之前，AI 数学成果的可靠性仍需人类把关。

更新于 2026-05-29：CVPR 2026 视角下的 AI 科学发现新趋势

本节整合了 CVPR 2026 与 AI 自主科学发现的交叉视角，为 Jack Clark 的预测提供了新的实证支撑。

CVPR 2026 创纪录的 16,092 篇投稿（同比增长 24%）反映了 AI 在科学研究中的双重角色： 一方面，AI 本身就是视觉研究的核心对象（世界模型、具身智能、医学基础模型）；另一方面，AI 正在成为视觉研究的主导者——大量 CVPR 2026 论文由 AI 辅助完成，从文献综述到实验设计再到论文撰写，AI 的参与深度远超往年。医学视觉方向的爆发式增长尤其值得关注。 CVPR 2026 程序委员会联合主席 Chen Change Loy 指出，医学和生物视觉方向的投稿增长最为显著。这与 Jack Clark 的「AI 自主科学发现」预测直接相关——医学影像是 AI 科学发现最容易落地的场景之一，因为：

第一，数据标准化程度高。医学影像（X 射线、CT、MRI）具有统一的格式和标注标准，使得 AI 模型可以直接处理和分析，而不需要复杂的数据预处理。

第二，验证路径清晰。医学影像 AI 的输出（如肿瘤检测、器官分割）可以通过临床金标准直接验证，不需要像纯数学证明那样依赖形式化验证工具的转化。

第三，付费意愿强。医疗行业对效率提升的需求迫切，且付费能力远高于学术界。这使得医学视觉 AI 的商业化路径比纯学术 AI 科学发现更加清晰。世界模型与科学发现的交叉。 CVPR 2026 中 3D 世界模型的突破对 AI 自主科学发现也有重要启示。世界模型的核心能力是「预测如果我在某个位置，我会看到什么」——这本质上是一种基于物理假设的推理能力。如果将这种能力推广到科学发现领域，AI 可以「想象」不同假设下的实验结果，从而缩小假设空间、加速科学发现过程。AI Master 的更新判断： Jack Clark 的「12 个月内诺奖级发现」预测仍然偏激进，但医学视觉方向的商业化落地可能比纯学术领域的 AI 科学发现更快实现。我们调整预测如下：

-2027 年：AI 辅助的医学影像诊断系统获得大规模商业部署（不是诺奖级，但具有重大临床价值）
-2028-2029 年：AI 在药物发现或材料科学领域做出足以获得顶级学术奖项的发现
-2030 年及以后：AI 在纯数学或基础物理领域做出原创性突破（诺奖级）这一调整的依据是：科学发现的「商业化可行性」与「学术突破性」之间存在时间差。 医学视觉 AI 可以在不做出诺奖级突破的前提下创造巨大的商业价值——因为它不需要「全新的科学理论」，只需要「比人类医生更准确、更高效的诊断能力」。这种「渐进式创新」的商业化速度远快于「颠覆式创新」的学术认可速度。对 Jack Clark 预测的再评估： 60% 概率的「AI 自主训练后继者」预测在 2026 年 5 月的技术进展下仍然合理。METR 的 Task-Completion Time Horizon 指标显示前沿模型的自主任务能力每 7 个月翻倍，这意味着到 2028 年，模型确实可能具备自主训练后继者的能力。但「能训练」不等于「应该训练」——AI 安全社区正在推动对自主 RSI（递归自我改进）的监管框架，这可能延迟自主训练的实际部署。AI 科学发现的新指标建议： 与其关注「诺奖级发现」这种模糊的判断标准，我们建议使用更具体的指标来追踪 AI 科学发现的进展：


指标	当前状态	2027 目标	2028 目标
AI 作为共同作者的论文数	快速增长中	> 5,000 篇/年	> 20,000 篇/年
AI 主导发现的新化合物	数十个	数百个	数千个
AI 发现的新材料	个位数	数十个	数百个
AI 辅助的数学证明	个位数	数十个	形式化验证 > 100 个
获得 FDA 批准的 AI 医学产品	~50 个	> 100 个	> 200 个

图表加载中…

💡 一句话理解

如果你关注 AI 科学发现的进展，建议定期查看 arXiv 上以 AI 为共同作者的论文数量、FDA 批准的 AI 医学产品列表、以及 METR 的 Task-Completion Time Horizon 报告。这三个指标比单一的「诺奖级预测」更能反映实际进展。

⚠️ 常见踩坑

AI 科学发现的伦理框架仍在建设中。当 AI 开始在药物发现或材料科学中做出重要贡献时，谁应该获得学术荣誉？AI 能否成为论文的作者？这些问题目前没有共识。建议关注国际科学期刊（如 Nature、Science）对 AI 作者身份的立场变化。

🎯 相关面试题

结合本篇技术观点，备战 AI 岗位面试。

浏览全部面试题 →

AI 自主科学发现：从 Jack Clark 牛津演讲看 AI 诺奖级研究的到来

文章摘要

一、事件回顾：Jack Clark 牛津演讲的核心预测

二、技术基础：AI 为什么现在能推动科学发现

三、时间线分析：12 个月出诺奖成果合理吗？

四、自主训练：60% 概率意味着什么？

五、对比分析：各大 AI 公司在科学发现领域的布局

六、科学家的角色转变：从研究者到「问题定义者」

七、伦理与风险：当 AI 开始「自己研究自己」

八、趋势预判：未来 3 年的关键里程碑

九、深度分析：从 Erdős 猜想突破看 AI 数学推理的三种技术路径

十、科学发现的经济学：AI 将如何改变科研投入的格局

十一、更新于 2026-05-27：AI 自主科学发现的最新进展

更新于 2026-05-29：CVPR 2026 视角下的 AI 科学发现新趋势

标签

📚 相关文章推荐

AI 蒸馏攻击防御：从 Anthropic 指控阿里巴巴事件看模型知识产权保护

Claude Code 2026 年 4 月质量事故深度复盘：三个 Bug 如何毁掉用户信任

继续探索更多 AI 内容

觉得内容有帮助？请站长喝杯咖啡 ☕