文章摘要
2026 年 6 月 WWDC 上,Apple 发布了第三代 Apple Foundation Models(AFM 3)——一个由 5 个模型组成的家族,其中最强大的 AFM 3 Cloud Pro 基于 Google Gemini 技术蒸馏而来,运行在 Google Cloud 的 NVIDIA Blackwell B200 GPU 上。Apple 每年向 Google 支付约 10 亿美元,合同总价值高达 50 亿美元。这是消费级 AI 历史上最大规模的基础设施外包——一家以隐私为核心卖点的公司,把最敏感的 AI 推理交给了最大的竞争对手。本文深度解析 AFM 3 的五模型架构、知识蒸馏的技术细节、三层路由系统的设计哲学,以及「模型无关架构」对 AI 产业的深远影响。
11.2 万亿美元参数的「特洛伊木马」:Apple 的 AI -reset
2026 年 6 月 9 日,Apple 在 WWDC 2026 主题演讲上揭晓了 Siri 重建计划的全部技术细节。AI 副总裁 Amar Subramanya 用一句话概括了核心变化:「我们构建了五个全新的基础模型,它们是为 Apple Silicon 量身定制的。」
但技术媒体很快发现了一个尴尬的事实:这五个模型中,最强大的那个——AFM 3 Cloud Pro——是基于 Google Gemini 的前沿模型输出,通过知识蒸馏(Knowledge Distillation) 技术训练而成,运行在 Google Cloud 数据中心的 NVIDIA Blackwell B200 GPU 上。
Apple 最重要的 AI 发布,不是一项功能,而是一个架构决策。
关键数字:
| 维度 | 数据 |
|---|---|
| 合同金额 | 每年约 10 亿美元,总计高达 50 亿美元 |
| 模型参数量 | 约 1.2 万亿(Bloomberg 泄露数据,Google 未官方确认) |
| Apple 自有模型 | 未公开(设备端约 30 亿参数,云端模型未披露) |
| 参数量倍数 | 传闻 Gemini 版本约为 Apple 设备端模型的 400 倍 |
| 硬件 | NVIDIA Blackwell B200 GPU,部署在 Google Cloud |
| 隐私架构 | Private Cloud Compute(PCC)扩展版 |
Craig Federighi 在会后技术座谈中明确反驳了「Siri 就是 Gemini 的 OEM」说法:「Apple 的新基础模型中没有一滴 Gemini 的成分。」但这句话的精确含义需要仔细拆解——它说的是模型架构是 Apple 自己的,但训练信号来自 Gemini。
💡 一句话理解
「知识蒸馏」和「直接使用 Gemini」是完全不同的技术路线。蒸馏意味着 Apple 用 Gemini 的输出作为训练信号,但最终模型的架构、权重和推理过程完全是 Apple 自己的。这类似于学生看老师的解题过程来学习,但考试时是自己独立作答。
2五模型家族深度拆解:从 3B 设备端到万亿参数云端
AFM 3 家族包含五个模型,分为设备端(2 个)和云端(3 个)两大阵营。这种分层设计是 Apple 「隐私优先」理念的工程体现——能在设备上处理的,绝不上传云端。
2.1 设备端:AFM Core 与 Core Advanced
AFM Core 是一个约 30 亿参数的密集架构模型,运行在 iPhone 的 Neural Engine 上。它处理最基础的 Siri 请求——设置闹钟、查询天气、发送消息。这些数据完全不离开设备。
AFM Core Advanced 是技术上最令人惊叹的部分。它是一个 200 亿参数的稀疏架构模型,但每次推理只激活 10-40 亿参数。这得益于 Apple Research 在 2025 年 1 月发表的 IFP(Instruction-Following Pruning,指令跟随剪枝) 技术。
IFP 的核心思想:不是按固定规则剪枝(如移除某些注意力头),而是根据用户的具体指令动态决定激活哪些参数。一个简单的问题可能只激活 10 亿参数,一个复杂的多步骤任务则激活 40 亿。
这意味着一台 iPhone 上跑着一个「名义上 20B、实际上 1-4B」的模型——在有限的移动设备内存和功耗约束下,实现了远超同体量的智能水平。
2.2 云端:AFM 3 Cloud、Cloud Image 与 Cloud Pro
AFM 3 Cloud 是服务端的主力模型,基于 Apple 前一年提出的 PT-MoE(Parallel-Track Mixture-of-Experts) 架构,进一步优化了训练稳定性和上下文窗口内的信息召回能力。在与 2025 年版本的直接对比中,AFM 3 Cloud 在文本任务上 64.7% 的case被优选,旧版仅 8.7%。
AFM 3 Cloud Image 负责所有图像生成和编辑功能——Image Playground、Reframe、Extend、Cleanup,以及新增的空间重构功能。
AFM 3 Cloud Pro 是家族中最高端的成员,专为复杂推理和 Agent 工具调用设计。相比 AFM 3 Cloud,它在文本质量上提升约 10%,图像理解提升约 14%,数学任务提升 14%。关键区别在于:Cloud Pro 是唯一一个不为 Apple Silicon 优化、而是为 NVIDIA GPU 优化的模型。
Apple 没有公布任何云端模型的参数量——这是刻意为之。Apple 希望开发者关注能力而非参数规模。
⚠️ 常见踩坑
AFM 3 Cloud Pro 运行在 Google Cloud 的 NVIDIA GPU 上——这意味着 Apple 的隐私架构首次延伸到了竞争对手的基础设施中。Apple 声称 PCC 的隐私保证在扩展到 Google Cloud 后「完全相同」,但尚无独立安全审计验证这一说法。
3知识蒸馏的技术解剖:「不是 Gemini,但学了 Gemini」
理解 AFM 3 最关键的技术问题是:知识蒸馏(Knowledge Distillation)到底做了什么?
传统知识蒸馏的流程是:一个大型「教师模型」生成大量输出(包括 logits 分布、中间层表征),一个小型「学生模型」学习模仿这些输出。最终学生模型在推理时完全独立,不再需要教师。
Apple 的做法更精确地说是一种「输出蒸馏」:
- 数据准备:Apple 使用针对 Apple Silicon 优化的专有数据集进行预训练
- 强化学习:对预训练模型进行 RLHF(基于人类反馈的强化学习)
- 蒸馏精炼:用 Gemini 前沿模型的输出对 Apple 模型进行「精炼(refined)」——注意 Apple 用的词是 "refined",不是 "trained" 或 "distilled"
- 独立部署:最终模型完全在 Apple 的 PCC 基础设施中运行,推理时没有任何数据流向 Google 的 Gemini 系统
Subramanya 的原话是:「所有四个模型(Core、Core Advanced、Cloud、Cloud Image)都是为 Apple Silicon 定制的,使用专有数据和强化学习训练,并用 Gemini 前沿模型的输出进行精炼。」
这里的关键区别是:训练时有 Gemini 参与,推理时没有。 就像学生通过看老师的解题过程学习,但考试时独立完成。
对于 AFM 3 Cloud Pro,关系更紧密:它基于 Gemini 的基础架构和数据,但 Apple 自己完成了预训练、后训练和强化学习。AppleInsider 将其描述为「Apple 新基础模型中没有一丝 Gemini 的成分」——这在架构层面是准确的,但在训练信号层面是一种简化。
"""
知识蒸馏概念演示
展示教师模型的输出如何引导学生模型训练
注意:这是原理示意,非 Apple 实际实现
"""
import torch
import torch.nn.functional as F
class KnowledgeDistillationTrainer:
"""知识蒸馏训练器"""
def __init__(self, teacher_model, student_model, temperature=4.0, alpha=0.7):
"""
Args:
teacher_model: 教师模型(如 Gemini 前沿模型)
student_model: 学生模型(如 AFM 系列)
temperature: 软化 softmax 分布的温度参数
alpha: 蒸馏损失 vs 真实标签损失的权重
"""
self.teacher = teacher_model.eval() # 教师模型冻结
self.student = student_model
self.temperature = temperature
self.alpha = alpha
def distillation_loss(self, student_logits, teacher_logits, true_labels):
"""蒸馏损失 = KL散度(学生, 教师) + 交叉熵(学生, 真实标签)"""
# softened predictions(软标签)
soft_student = F.log_softmax(student_logits / self.temperature, dim=1)
soft_teacher = F.softmax(teacher_logits / self.temperature, dim=1)
# KL 散度:学生模仿教师的输出分布
kd_loss = F.kl_div(soft_student, soft_teacher, reduction='batchmean')
kd_loss *= (self.temperature ** 2)
# 交叉熵:学生也要学习真实标签
ce_loss = F.cross_entropy(student_logits, true_labels)
return self.alpha * kd_loss + (1 - self.alpha) * ce_loss
def train_step(self, batch):
"""单步训练:教师生成信号 → 学生学习"""
inputs, labels = batch
# 教师生成软标签(推理时不需要这一步)
with torch.no_grad():
teacher_outputs = self.teacher(inputs)
# 学生训练
student_outputs = self.student(inputs)
loss = self.distillation_loss(student_outputs, teacher_outputs, labels)
return loss
# 关键洞察:训练完成后,学生模型完全独立
# 推理时只需要 student_model,不再需要 teacher_model
# 这就是 Apple 说的「推理时没有 Gemini 参与」的技术含义💡 一句话理解
知识蒸馏不是 Apple 的发明——Hinton 等人在 2015 年就提出了这个概念。但 Apple 将其应用在消费级 AI 助手的规模上,并且与隐私架构(PCC)结合,这是工程上的重大创新。
4隐私架构的极限考验:PCC 延伸到 Google Cloud
Apple 的 Private Cloud Compute(PCC) 是其 AI 隐私承诺的技术基石。PCC 的核心保证是:
- 数据不持久化:用户的请求数据处理完毕后,所有数据从服务器内存中彻底清除
- 数据不共享:包括 Apple 员工在内的任何人都无法访问用户数据
- 可审计性:安全研究人员可以验证 PCC 的代码和行为
现在,AFM 3 Cloud Pro 需要在 Google Cloud 的 NVIDIA GPU 上运行。这意味着 PCC 的隐私保证必须延伸到竞争对手的基础设施中。
Apple 工程副总裁 Sebastien Marineau-Mes 在技术座谈中表示:「PCC 扩展到 NVIDIA GPU 和 Google Cloud 后,隐私保证完全相同。」
具体来说,Apple 采取了以下措施:
- 硬件隔离:NVIDIA GPU 运行在 Google Cloud 内的隔离区域,只有 Apple 的 PCC 软件栈可以访问
- 软件栈一致:与 Apple 自有 PCC 服务器运行完全相同的软件——相同的加密、相同的内存清理、相同的审计日志
- 访问控制:Google 的运维人员无法访问 PCC 实例的内部状态
- 数据流加密:从设备到 Google Cloud 的整个数据通路使用端到端加密
但这仍然是一个信任 leap of faith。 正如 The Next Web 所指出的:「对于一家将隐私作为高端产品的公司来说,把 AI 推理外包给最大竞争对手的云计算,需要非凡数量的信任工程。」
值得注意的是,Apple 在 2026 年 5 月刚刚和解了一起 2.5 亿美元的集体诉讼——原因是 2024 年 iPhone 16 发布时宣传了 AI 功能但实际未就绪。Siri 工程负责人 Mike Rockwell 承认之前的 Siri 改版「没有达到 Apple 的标准」。
⚠️ 常见踩坑
PCC 扩展到 Google Cloud 的隐私保证尚未经过独立第三方安全审计。Apple 的声明基于内部测试。对于高度敏感的企业用户,建议关注后续审计结果。
5「模型无关架构」的深远影响:AI 基础设施的重组
Apple 的决策标志着一种新的 AI 基础设施范式的诞生——「模型无关架构」(Model-Agnostic Architecture)。
核心思想是:用户体验层与模型推理层彻底解耦。用户看到的始终是「Siri」,但背后的模型可以是 Apple 自研的、Google 蒸馏的、甚至未来其他供应商的——用户不需要知道,也不应该关心。
这种架构的三层抽象:
| 层级 | 职责 | Apple 的角色 |
|---|---|---|
| 体验层 | 用户界面、对话管理、多模态交互 | 完全自主 |
| 路由层 | 查询分类、模型选择、隐私决策 | 完全自主 |
| 推理层 | 模型执行、硬件加速、隐私计算 | 部分外包 |
这对整个 AI 产业意味着什么?
1. AI 芯片的「去神圣化」
Apple 承认自研芯片(包括 Neural Engine 和未来的 Baltra 芯片)在 AI 推理方面存在局限。AFM 3 Cloud Pro 选择 NVIDIA GPU 而非 Apple Silicon,是对「自研芯片万能论」的公开否定。
2. 隐私与能力的权衡显性化
过去,Apple 可以说「我们的 AI 全部在设备上运行」。现在,它必须承认:最强大的 AI 需要云端算力,而云端算力意味着信任第三方。这个权衡被显性化了,消费者需要做出知情选择。
3. 「模型即服务」的 B2B 市场加速
Apple 每年向 Google 支付 10 亿美元——这是 AI 模型 B2B 授权历史上最大的单笔交易之一。它验证了一个商业模式:前沿模型不仅可以面向消费者(B2C),还可以面向其他科技巨头(B2B)。
4. 长期路线图:Baltra 芯片的 2027 计划
Apple 并非打算永久依赖 Google。根据已披露的路线图,Apple 计划在 2027 年推出自研的 Baltra AI 芯片,届时将逐步替代 NVIDIA GPU。当前的 Google 合作被定位为「过渡方案」,而非长期依赖。
💡 一句话理解
「模型无关架构」不仅适用于 Apple。任何构建 AI 产品的公司都应该考虑:将用户体验与底层模型解耦,保留在未来切换或升级模型的能力。这是 AI 工程的核心架构原则。
6对开发者和企业的影响:AFM 3 生态与商业机会
AFM 3 的发布对开发者生态和企业 AI 战略有多重影响:
6.1 开发者视角
Apple Intelligence API 将保持不变。 Apple 刻意让开发者不需要关心底层模型的变化。Core ML、Create ML 和 Apple Intelligence 的 API 接口保持一致——开发者调用的是「Apple Intelligence」,而不是某个具体的模型。
但新的能力出现了:
- Agentic Tool Use:AFM 3 Cloud Pro 支持复杂的多步骤工具调用,这意味着 Siri 可以执行跨应用的复杂工作流
- 个性化语音引擎:支持自定义语速和表达力
- 屏幕感知:Siri 现在可以理解屏幕内容并据此执行操作
6.2 企业 AI 战略的启示
1. 「Build vs Buy vs Distill」的决策框架
Apple 的选择是「Distill」——用竞争对手的模型输出训练自己的模型。这比直接 Buy(使用第三方 API)更贵但更可控,比 Build(从零训练)更快但依赖教师模型的质量。
| 策略 | 成本 | 控制力 | 时间 | 适用场景 |
|---|---|---|---|---|
| Build | 极高 | 完全 | 2-3 年 | 核心差异化能力 |
| Buy | 中等 | 低 | 数周 | 快速验证/非核心功能 |
| Distill | 中高 | 中高 | 3-6 月 | 需要自主但时间紧 |
2. 隐私合规的新挑战
如果企业使用 Apple 设备作为工作终端,AFM 3 Cloud Pro 意味着敏感数据可能在 Google Cloud 的 NVIDIA GPU 上被处理。IT 部门需要更新数据治理策略,确认这种处理路径符合合规要求。
3. 多模型策略成为必须
Apple 的三层路由架构本身就是一个「多模型策略」的范例——简单任务用设备端模型,中等任务用 PCC,复杂任务用 Cloud Pro。企业 AI 也应该采用类似的分层策略,而不是把所有请求都发给最贵的模型。
💡 一句话理解
对于国内开发者,Apple-Google 合作的「模型无关架构」思路值得借鉴。即使底层使用国产模型(如通义千问、文心一言),也可以在体验层保持统一的用户界面,实现「用户无感」的模型切换。
7总结:AI 基础设施的「现实主义」时代
Apple × Google 的 AI 联姻标志着消费级 AI 进入了一个「现实主义」时代。
过去几年,科技巨头们都在讲一个「自给自足」的故事——自己的芯片、自己的模型、自己的云。Apple 的决策证明了这个故事的不可持续性:即使是最强大的科技公司,也无法在 AI 基础设施的所有层面都保持领先。
Apple 选择了务实:
- 承认自研芯片的 AI 能力不足 → 使用 NVIDIA GPU
- 承认自研模型的推理能力有限 → 蒸馏 Google Gemini
- 承认独立云的成本过高 → 借用 Google Cloud
但 Apple 也守住了底线:
- 用户体验完全自主 → Siri 仍然是 Apple 的产品
- 隐私架构完全自主 → PCC 的规则由 Apple 制定
- 路由决策完全自主 → 什么时候用什么模型,由 Apple 决定
这就是「模型无关架构」的本质:在开放合作的同时保持核心控制。
对于整个 AI 产业来说,Apple 的决策可能比任何单个技术突破都更有影响力——它证明了在 AI 时代,最聪明的策略不是什么都自己做,而是知道什么该自己做、什么该交给别人。
⚠️ 常见踩坑
本文基于 WWDC 2026 公开发布信息和媒体报道编写。AFM 3 Cloud Pro 的性能声明尚未经过独立基准测试验证。PCC 扩展到 Google Cloud 的安全保证也尚未经过第三方审计。建议读者关注后续独立评估结果。