💡

文章摘要

2026 年 6 月 WWDC 上,Apple 发布了第三代 Apple Foundation Models(AFM 3)——一个由 5 个模型组成的家族,其中最强大的 AFM 3 Cloud Pro 基于 Google Gemini 技术蒸馏而来,运行在 Google Cloud 的 NVIDIA Blackwell B200 GPU 上。Apple 每年向 Google 支付约 10 亿美元,合同总价值高达 50 亿美元。这是消费级 AI 历史上最大规模的基础设施外包——一家以隐私为核心卖点的公司,把最敏感的 AI 推理交给了最大的竞争对手。本文深度解析 AFM 3 的五模型架构、知识蒸馏的技术细节、三层路由系统的设计哲学,以及「模型无关架构」对 AI 产业的深远影响。

11.2 万亿美元参数的「特洛伊木马」:Apple 的 AI -reset

2026 年 6 月 9 日,Apple 在 WWDC 2026 主题演讲上揭晓了 Siri 重建计划的全部技术细节。AI 副总裁 Amar Subramanya 用一句话概括了核心变化:「我们构建了五个全新的基础模型,它们是为 Apple Silicon 量身定制的。」

但技术媒体很快发现了一个尴尬的事实:这五个模型中,最强大的那个——AFM 3 Cloud Pro——是基于 Google Gemini 的前沿模型输出,通过知识蒸馏Knowledge Distillation 技术训练而成,运行在 Google Cloud 数据中心的 NVIDIA Blackwell B200 GPU 上。

Apple 最重要的 AI 发布,不是一项功能,而是一个架构决策。

关键数字:

维度 数据
合同金额 每年约 10 亿美元,总计高达 50 亿美元
模型参数量 约 1.2 万亿(Bloomberg 泄露数据,Google 未官方确认)
Apple 自有模型 未公开(设备端约 30 亿参数,云端模型未披露)
参数量倍数 传闻 Gemini 版本约为 Apple 设备端模型的 400 倍
硬件 NVIDIA Blackwell B200 GPU,部署在 Google Cloud
隐私架构 Private Cloud Compute(PCC)扩展版

Craig Federighi 在会后技术座谈中明确反驳了「Siri 就是 Gemini 的 OEM」说法:「Apple 的新基础模型中没有一滴 Gemini 的成分。」但这句话的精确含义需要仔细拆解——它说的是模型架构是 Apple 自己的,但训练信号来自 Gemini。

图表加载中…

💡 一句话理解

知识蒸馏」和「直接使用 Gemini」是完全不同的技术路线。蒸馏意味着 Apple 用 Gemini 的输出作为训练信号,但最终模型的架构、权重和推理过程完全是 Apple 自己的。这类似于学生看老师的解题过程来学习,但考试时是自己独立作答。

2五模型家族深度拆解:从 3B 设备端到万亿参数云端

AFM 3 家族包含五个模型,分为设备端(2 个)和云端(3 个)两大阵营。这种分层设计是 Apple 「隐私优先」理念的工程体现——能在设备上处理的,绝不上传云端。

2.1 设备端:AFM Core 与 Core Advanced

AFM Core 是一个约 30 亿参数的密集架构模型,运行在 iPhone 的 Neural Engine 上。它处理最基础的 Siri 请求——设置闹钟、查询天气、发送消息。这些数据完全不离开设备。

AFM Core Advanced 是技术上最令人惊叹的部分。它是一个 200 亿参数的稀疏架构模型,但每次推理只激活 10-40 亿参数。这得益于 Apple Research 在 2025 年 1 月发表的 IFP(Instruction-Following Pruning,指令跟随剪枝) 技术。

IFP 的核心思想:不是按固定规则剪枝(如移除某些注意力头),而是根据用户的具体指令动态决定激活哪些参数。一个简单的问题可能只激活 10 亿参数,一个复杂的多步骤任务则激活 40 亿。

这意味着一台 iPhone 上跑着一个「名义上 20B、实际上 1-4B」的模型——在有限的移动设备内存和功耗约束下,实现了远超同体量的智能水平。

2.2 云端:AFM 3 Cloud、Cloud Image 与 Cloud Pro

AFM 3 Cloud 是服务端的主力模型,基于 Apple 前一年提出的 PT-MoE(Parallel-Track Mixture-of-Experts) 架构,进一步优化了训练稳定性和上下文窗口内的信息召回能力。在与 2025 年版本的直接对比中,AFM 3 Cloud 在文本任务上 64.7% 的case被优选,旧版仅 8.7%。

AFM 3 Cloud Image 负责所有图像生成和编辑功能——Image Playground、Reframe、Extend、Cleanup,以及新增的空间重构功能。

AFM 3 Cloud Pro 是家族中最高端的成员,专为复杂推理和 Agent 工具调用设计。相比 AFM 3 Cloud,它在文本质量上提升约 10%,图像理解提升约 14%,数学任务提升 14%。关键区别在于:Cloud Pro 是唯一一个不为 Apple Silicon 优化、而是为 NVIDIA GPU 优化的模型

Apple 没有公布任何云端模型的参数量——这是刻意为之。Apple 希望开发者关注能力而非参数规模。

图表加载中…

⚠️ 常见踩坑

AFM 3 Cloud Pro 运行在 Google Cloud 的 NVIDIA GPU 上——这意味着 Apple 的隐私架构首次延伸到了竞争对手的基础设施中。Apple 声称 PCC 的隐私保证在扩展到 Google Cloud 后「完全相同」,但尚无独立安全审计验证这一说法。

3知识蒸馏的技术解剖:「不是 Gemini,但学了 Gemini」

理解 AFM 3 最关键的技术问题是:知识蒸馏Knowledge Distillation)到底做了什么?

传统知识蒸馏的流程是:一个大型「教师模型」生成大量输出(包括 logits 分布、中间层表征),一个小型「学生模型」学习模仿这些输出。最终学生模型在推理时完全独立,不再需要教师。

Apple 的做法更精确地说是一种「输出蒸馏」:

  1. 数据准备:Apple 使用针对 Apple Silicon 优化的专有数据集进行预训练
  2. 强化学习:对预训练模型进行 RLHF(基于人类反馈的强化学习
  3. 蒸馏精炼:用 Gemini 前沿模型的输出对 Apple 模型进行「精炼(refined)」——注意 Apple 用的词是 "refined",不是 "trained" 或 "distilled"
  4. 独立部署:最终模型完全在 Apple 的 PCC 基础设施中运行,推理时没有任何数据流向 Google 的 Gemini 系统

Subramanya 的原话是:「所有四个模型(Core、Core Advanced、Cloud、Cloud Image)都是为 Apple Silicon 定制的,使用专有数据和强化学习训练,并用 Gemini 前沿模型的输出进行精炼。」

这里的关键区别是:训练时有 Gemini 参与,推理时没有。 就像学生通过看老师的解题过程学习,但考试时独立完成。

对于 AFM 3 Cloud Pro,关系更紧密:它基于 Gemini 的基础架构和数据,但 Apple 自己完成了预训练、后训练和强化学习。AppleInsider 将其描述为「Apple 新基础模型中没有一丝 Gemini 的成分」——这在架构层面是准确的,但在训练信号层面是一种简化。

python
knowledge_distillation_demo.py
"""
知识蒸馏概念演示
展示教师模型的输出如何引导学生模型训练
注意:这是原理示意,非 Apple 实际实现
"""
import torch
import torch.nn.functional as F

class KnowledgeDistillationTrainer:
    """知识蒸馏训练器"""
    
    def __init__(self, teacher_model, student_model, temperature=4.0, alpha=0.7):
        """
        Args:
            teacher_model: 教师模型(如 Gemini 前沿模型)
            student_model: 学生模型(如 AFM 系列)
            temperature: 软化 softmax 分布的温度参数
            alpha: 蒸馏损失 vs 真实标签损失的权重
        """
        self.teacher = teacher_model.eval()  # 教师模型冻结
        self.student = student_model
        self.temperature = temperature
        self.alpha = alpha
    
    def distillation_loss(self, student_logits, teacher_logits, true_labels):
        """蒸馏损失 = KL散度(学生, 教师) + 交叉熵(学生, 真实标签)"""
        #  softened predictions(软标签)
        soft_student = F.log_softmax(student_logits / self.temperature, dim=1)
        soft_teacher = F.softmax(teacher_logits / self.temperature, dim=1)
        
        # KL 散度:学生模仿教师的输出分布
        kd_loss = F.kl_div(soft_student, soft_teacher, reduction='batchmean')
        kd_loss *= (self.temperature ** 2)
        
        # 交叉熵:学生也要学习真实标签
        ce_loss = F.cross_entropy(student_logits, true_labels)
        
        return self.alpha * kd_loss + (1 - self.alpha) * ce_loss
    
    def train_step(self, batch):
        """单步训练:教师生成信号 → 学生学习"""
        inputs, labels = batch
        
        # 教师生成软标签(推理时不需要这一步)
        with torch.no_grad():
            teacher_outputs = self.teacher(inputs)
        
        # 学生训练
        student_outputs = self.student(inputs)
        loss = self.distillation_loss(student_outputs, teacher_outputs, labels)
        
        return loss

# 关键洞察:训练完成后,学生模型完全独立
# 推理时只需要 student_model,不再需要 teacher_model
# 这就是 Apple 说的「推理时没有 Gemini 参与」的技术含义

💡 一句话理解

知识蒸馏不是 Apple 的发明——Hinton 等人在 2015 年就提出了这个概念。但 Apple 将其应用在消费级 AI 助手的规模上,并且与隐私架构(PCC)结合,这是工程上的重大创新。

4隐私架构的极限考验:PCC 延伸到 Google Cloud

Apple 的 Private Cloud Compute(PCC) 是其 AI 隐私承诺的技术基石。PCC 的核心保证是:

  1. 数据不持久化:用户的请求数据处理完毕后,所有数据从服务器内存中彻底清除
  2. 数据不共享:包括 Apple 员工在内的任何人都无法访问用户数据
  3. 可审计性:安全研究人员可以验证 PCC 的代码和行为

现在,AFM 3 Cloud Pro 需要在 Google Cloud 的 NVIDIA GPU 上运行。这意味着 PCC 的隐私保证必须延伸到竞争对手的基础设施中

Apple 工程副总裁 Sebastien Marineau-Mes 在技术座谈中表示:「PCC 扩展到 NVIDIA GPU 和 Google Cloud 后,隐私保证完全相同。

具体来说,Apple 采取了以下措施:

  • 硬件隔离:NVIDIA GPU 运行在 Google Cloud 内的隔离区域,只有 Apple 的 PCC 软件栈可以访问
  • 软件栈一致:与 Apple 自有 PCC 服务器运行完全相同的软件——相同的加密、相同的内存清理、相同的审计日志
  • 访问控制:Google 的运维人员无法访问 PCC 实例的内部状态
  • 数据流加密:从设备到 Google Cloud 的整个数据通路使用端到端加密

但这仍然是一个信任 leap of faith。 正如 The Next Web 所指出的:「对于一家将隐私作为高端产品的公司来说,把 AI 推理外包给最大竞争对手的云计算,需要非凡数量的信任工程。」

值得注意的是,Apple 在 2026 年 5 月刚刚和解了一起 2.5 亿美元的集体诉讼——原因是 2024 年 iPhone 16 发布时宣传了 AI 功能但实际未就绪。Siri 工程负责人 Mike Rockwell 承认之前的 Siri 改版「没有达到 Apple 的标准」。

⚠️ 常见踩坑

PCC 扩展到 Google Cloud 的隐私保证尚未经过独立第三方安全审计。Apple 的声明基于内部测试。对于高度敏感的企业用户,建议关注后续审计结果。

5「模型无关架构」的深远影响:AI 基础设施的重组

Apple 的决策标志着一种新的 AI 基础设施范式的诞生——「模型无关架构」(Model-Agnostic Architecture)

核心思想是:用户体验层与模型推理层彻底解耦。用户看到的始终是「Siri」,但背后的模型可以是 Apple 自研的、Google 蒸馏的、甚至未来其他供应商的——用户不需要知道,也不应该关心。

这种架构的三层抽象:

层级 职责 Apple 的角色
体验层 用户界面、对话管理、多模态交互 完全自主
路由层 查询分类、模型选择、隐私决策 完全自主
推理层 模型执行、硬件加速、隐私计算 部分外包

这对整个 AI 产业意味着什么?

1. AI 芯片的「去神圣化」

Apple 承认自研芯片(包括 Neural Engine 和未来的 Baltra 芯片)在 AI 推理方面存在局限。AFM 3 Cloud Pro 选择 NVIDIA GPU 而非 Apple Silicon,是对「自研芯片万能论」的公开否定。

2. 隐私与能力的权衡显性化

过去,Apple 可以说「我们的 AI 全部在设备上运行」。现在,它必须承认:最强大的 AI 需要云端算力,而云端算力意味着信任第三方。这个权衡被显性化了,消费者需要做出知情选择。

3. 「模型即服务」的 B2B 市场加速

Apple 每年向 Google 支付 10 亿美元——这是 AI 模型 B2B 授权历史上最大的单笔交易之一。它验证了一个商业模式:前沿模型不仅可以面向消费者(B2C),还可以面向其他科技巨头(B2B)

4. 长期路线图:Baltra 芯片的 2027 计划

Apple 并非打算永久依赖 Google。根据已披露的路线图,Apple 计划在 2027 年推出自研的 Baltra AI 芯片,届时将逐步替代 NVIDIA GPU。当前的 Google 合作被定位为「过渡方案」,而非长期依赖。

图表加载中…

💡 一句话理解

「模型无关架构」不仅适用于 Apple。任何构建 AI 产品的公司都应该考虑:将用户体验与底层模型解耦,保留在未来切换或升级模型的能力。这是 AI 工程的核心架构原则。

6对开发者和企业的影响:AFM 3 生态与商业机会

AFM 3 的发布对开发者生态和企业 AI 战略有多重影响:

6.1 开发者视角

Apple Intelligence API 将保持不变。 Apple 刻意让开发者不需要关心底层模型的变化。Core ML、Create ML 和 Apple Intelligence 的 API 接口保持一致——开发者调用的是「Apple Intelligence」,而不是某个具体的模型。

但新的能力出现了:

  • Agentic Tool Use:AFM 3 Cloud Pro 支持复杂的多步骤工具调用,这意味着 Siri 可以执行跨应用的复杂工作流
  • 个性化语音引擎:支持自定义语速和表达力
  • 屏幕感知:Siri 现在可以理解屏幕内容并据此执行操作

6.2 企业 AI 战略的启示

1. 「Build vs Buy vs Distill」的决策框架

Apple 的选择是「Distill」——用竞争对手的模型输出训练自己的模型。这比直接 Buy(使用第三方 API)更贵但更可控,比 Build(从零训练)更快但依赖教师模型的质量。

策略 成本 控制力 时间 适用场景
Build 极高 完全 2-3 年 核心差异化能力
Buy 中等 数周 快速验证/非核心功能
Distill 中高 中高 3-6 月 需要自主但时间紧

2. 隐私合规的新挑战

如果企业使用 Apple 设备作为工作终端,AFM 3 Cloud Pro 意味着敏感数据可能在 Google Cloud 的 NVIDIA GPU 上被处理。IT 部门需要更新数据治理策略,确认这种处理路径符合合规要求。

3. 多模型策略成为必须

Apple 的三层路由架构本身就是一个「多模型策略」的范例——简单任务用设备端模型,中等任务用 PCC,复杂任务用 Cloud Pro。企业 AI 也应该采用类似的分层策略,而不是把所有请求都发给最贵的模型。

💡 一句话理解

对于国内开发者,Apple-Google 合作的「模型无关架构」思路值得借鉴。即使底层使用国产模型(如通义千问、文心一言),也可以在体验层保持统一的用户界面,实现「用户无感」的模型切换。

7总结:AI 基础设施的「现实主义」时代

Apple × Google 的 AI 联姻标志着消费级 AI 进入了一个「现实主义」时代。

过去几年,科技巨头们都在讲一个「自给自足」的故事——自己的芯片、自己的模型、自己的云。Apple 的决策证明了这个故事的不可持续性:即使是最强大的科技公司,也无法在 AI 基础设施的所有层面都保持领先。

Apple 选择了务实:

  • 承认自研芯片的 AI 能力不足 → 使用 NVIDIA GPU
  • 承认自研模型的推理能力有限 → 蒸馏 Google Gemini
  • 承认独立云的成本过高 → 借用 Google Cloud

但 Apple 也守住了底线:

  • 用户体验完全自主 → Siri 仍然是 Apple 的产品
  • 隐私架构完全自主 → PCC 的规则由 Apple 制定
  • 路由决策完全自主 → 什么时候用什么模型,由 Apple 决定

这就是「模型无关架构」的本质:在开放合作的同时保持核心控制。

对于整个 AI 产业来说,Apple 的决策可能比任何单个技术突破都更有影响力——它证明了在 AI 时代,最聪明的策略不是什么都自己做,而是知道什么该自己做、什么该交给别人

⚠️ 常见踩坑

本文基于 WWDC 2026 公开发布信息和媒体报道编写。AFM 3 Cloud Pro 的性能声明尚未经过独立基准测试验证。PCC 扩展到 Google Cloud 的安全保证也尚未经过第三方审计。建议读者关注后续独立评估结果。