💡

文章摘要

2026年6月,Poolside 正式开源了 Laguna M.1——一个 225B 总参数、23B 激活参数的 Mixture-of-Experts 编程模型。SWE-bench Verified 74.6%、SWE-bench Pro 49.2%,Apache 2.0 协议完全开源。这是开源社区首次拥有能与 Claude Sonnet 4.6 正面竞争的编程模型。本文深度解析 Laguna M.1 的技术架构、训练方法论、以及与 Qwen3.5/DeepSeek-V4 的对比。

引言:开源编程 AI 的分水岭

2026年6月,Poolside 正式开源了 Laguna M.1——一个 225B 总参数、23B 激活参数的 Mixture-of-Experts(MoE)编程模型。

关键数字一览:

指标 数值
总参数量 225B
激活参数量 23B
训练 Token 30T
训练 GPU 6,144 × NVIDIA Hopper
SWE-bench Verified 74.6%
SWE-bench Pro 49.2%
Terminal-Bench 2.0 45.8%
开源协议 Apache 2.0

这意味着什么? 开源社区第一次拥有了一个在编程任务上接近 Claude Sonnet 4.6(SWE-bench Verified 79.6%)的模型——而且完全免费、可本地部署、可商用。

同一天发布的还有更小的 Laguna XS.2(33B 总参数 / 3B 激活),SWE-bench Verified 68.2%,同样 Apache 2.0 开源。

💡 一句话理解

Laguna M.1 的 23B 激活参数意味着单张 48GB 显卡(如 A6000)即可运行推理,不需要多卡并行。

⚠️ 常见踩坑

虽然模型权重开源,但训练数据和部分训练细节尚未完全公开。完全复现仍需等待技术报告。

一、MoE 架构深度解析:为什么 225B 总参数只有 23B 激活

Laguna M.1 采用了 Mixture-of-Experts(MoE 架构——这是 2025-2026 年大模型领域最重要的架构创新之一。

1.1 MoE 的核心思想

传统 dense 模型(如 LLaMA 70B)的每次推理都会激活全部参数。MoE 模型则不同:

Dense 模型: 每个 token 经过所有层的所有参数

  • 70B dense → 每次推理激活 70B 参数
  • 计算量 ∝ 总参数量

MoE 模型: 每个 token 只经过「被选中」的少量专家

  • 225B total / 23B active → 每次推理只激活 23B 参数
  • 计算量 ∝ 激活参数量(23B),而非总参数量(225B)

关键优势: 模型「知道」的东西(总参数量)远多于每次「用到」的东西(激活参数量)。这就像一个大公司有 225 名员工,但每个项目只需要 23 人参与。

1.2 Laguna M.1 的 MoE 设计

根据 Poolside 公开的技术细节:

架构参数 规格
总参数 225B
激活参数 23B(每 token
专家数量 未公开(推测 8-16 个)
路由策略 Top-K 专家选择
上下文长度 256K tokens
训练数据 30T tokens

1.3 MoE 的效率革命:与同级别模型对比

模型 总参数 激活参数 SWE-bench Verified 推理成本
Laguna M.1 225B 23B 74.6% 低(23B 激活
Devstral 2 123B 123B (dense) 72.2% 高(全激活
GLM-4.7 355B 32B 73.8% 中(32B 激活
DeepSeek-V4 Flash 284B 13B 79.0% 低(13B 激活
Qwen3.5 397B 17B 76.2% 低(17B 激活
Claude Sonnet 4.6 未公开 未公开 79.6% API only

核心洞察: MoE 架构让 Laguna M.1 用 23B 激活参数 达到了接近 123B dense 模型 的性能。这就是 MoE 的效率优势——你不需要为每个 token 都「叫醒」所有参数。

图表加载中…

二、训练方法论:Model Factory 的创新

Laguna M.1 的训练方法论可能是比模型本身更有价值的贡献。Poolside 公开了多个训练技术创新。

2.1 Muon 优化器:替代 AdamW

Laguna M.1 使用 Muon 优化器 而非传统的 AdamW

特性 AdamW Muon
每参数状态数 2(一阶矩 + 二阶矩) 1
内存开销 较高 降低 50%
收敛速度 基准 相同 loss 少 15% steps
大规模稳定性 良好 更优

为什么重要? 在 6,144 GPU 的训练规模下,优化器的内存开销是核心瓶颈。Muon 将每参数状态从 2 降到 1,意味着在相同硬件上可以训练更大的模型或使用更大的 batch size

2.2 AutoMixer:自动化数据混合

传统训练需要人工设计数据混合比例(代码:文本:数学:推理 = X:Y:Z:W)。Poolside 开发了 AutoMixer 系统:

  1. 训练 ~60 个代理模型,每个使用不同的数据混合
  2. 拟合代理回归器,学习数据混合与最终性能的关系
  3. 优化混合比例,找到帕累托最优的数据配比
  4. 最终混合包含 4.4T+ 合成 token

结果: 最终的数据混合方案在多个 benchmark 上超过了人工设计的混合方案。

2.3 异步 Agent RL:GPUDirect RDMA 权重传输

Laguna M.1 的强化学习训练采用了 异步 off-policy agent RL

  • 训练节点和推理节点分离
  • 使用 GPUDirect RDMA 在节点间传输权重
  • BF16 权重的传输时间 < 5 秒(M.1 规模)
  • 避免了 re-tokenization 不匹配问题

为什么这是创新? 传统的 RLHF/RLAIF 训练是同步的——模型生成样本后等待奖励信号,然后更新。异步训练允许模型在等待奖励的同时继续探索,大幅提升训练效率。

2.4 Token-in Token-out 架构

Poolside 特别强调了 Token-in, Token-out actor 设计

  • 避免跨 agent turn 的 re-tokenization 不匹配
  • 确保多轮对话中 token 边界一致
  • 对 agentic coding 场景尤其重要(一个任务可能包含数百轮工具调用
图表加载中…

三、Benchmark 深度分析:Laguna M.1 的真实水平

Benchmark 数字需要仔细解读。让我们逐项分析 Laguna M.1 在各 benchmark 上的表现。

3.1 SWE-bench Verified:74.6%

SWE-bench Verified 是最权威的编程能力 benchmark——从真实 GitHub issues 中提取任务,要求模型在真实代码仓库中修复 bug 或实现功能。

74.6% 意味着什么?

  • 在 100 个真实编程任务中,Laguna M.1 能独立完成约 75 个
  • 对比人类开发者:高级开发者在同一 benchmark 上约 85-90%
  • 对比其他开源模型:已经是最接近「人类水平」的开源模型之一

3.2 SWE-bench Pro:49.2%

SWE-bench Pro 是更难的专业版——任务更复杂、代码仓库更大、需要更深的推理能力。

49.2% vs 竞争对手:

  • DeepSeek-V4 Flash: 52.6%
  • Qwen3.5: 50.9%
  • Laguna M.1: 49.2%
  • Devstral 2: 32.6%

分析: Laguna M.1 在 Pro 版本上略逊于 DeepSeek-V4 Flash 和 Qwen3.5,但差距不大(1.4-3.4 个百分点)。考虑到 Laguna M.1 的激活参数(23B)远少于 Qwen3.5(17B 激活但总参数 397B),这个成绩说明 MoE 效率确实出色。

3.3 Terminal-Bench 2.0:45.8%

Terminal-Bench 2.0 测试的是「长程 agent 任务」——需要在终端环境中完成多步骤操作,包括文件编辑、命令执行、调试等。

45.8% 的定位:

  • DeepSeek-V4 Flash: 56.9%
  • Qwen3.5: 52.5%
  • Laguna M.1: 45.8%

分析: 这是 Laguna M.1 相对较弱的 benchmark。Terminal-Bench 更强调「长程规划」和「工具使用」能力,这可能与 Poolside 的训练数据分布有关。

3.4 综合排名

排名 模型 SWE-V SWE-Pro TB-2.0 综合
1 Claude Sonnet 4.6 79.6% - - 闭源参考
2 DeepSeek-V4 Flash 79.0% 52.6% 56.9% 🥇 开源
3 Qwen3.5 76.2% 50.9% 52.5% 🥈 开源
4 Laguna M.1 74.6% 49.2% 45.8% 🥉 开源
5 GLM-4.7 73.8% 41.0% - 开源
6 Devstral 2 72.2% 32.6% - 开源

关键洞察: DeepSeek-V4 Flash 在各项指标上全面领先开源阵营,但 Laguna M.1 以更少的激活参数(23B vs 13B)达到了有竞争力的成绩——这验证了 MoE 架构的「参数效率」优势。

四、实际部署指南:本地运行 Laguna M.1

Laguna M.1 以 Apache 2.0 开源,意味着你可以完全自由地部署和使用。

4.1 硬件需求

最低配置(量化推理):

  • GPU:1× NVIDIA A6000 48GB(或 1× A100 40GB + INT4 量化
  • RAM:64GB+
  • 存储:~120GB(BF16 权重)/ ~60GB(INT4 量化

推荐配置(全精度推理):

  • GPU:2× NVIDIA A100 80GB 或 4× A6000 48GB
  • RAM:128GB+
  • 存储:~450GB(BF16 权重 + KV cache 空间)

4.2 使用方式

方式一:Hugging Face 直接下载

方式二:Poolside API(限时免费)

Poolside 提供了限时免费的 API 端点,以及通过 OpenRouter 的访问。

方式三:本地 Agent 工具

Poolside 同步开源了 pool——一个终端编程 agent,以及 Shimmer——一个云端开发环境。两者都针对 Laguna 模型做了优化。

4.3 ACP 协议:模型与 Agent 的统一接口

Laguna M.1 发布时同步开源了 Agent Client Protocol (ACP) server——这是 Poolside 用于 agent RL 训练和评估的同一套协议。

ACP 的核心理念: 模型和 agent 不应该被分开看待。在 agentic coding 场景中,模型就是 agent 的「大脑」,agent harness 就是「身体」。两者需要协同设计和优化。

这与 MCPModel Context Protocol)形成互补:

  • MCP:解决模型如何访问外部工具和数据
  • ACP:解决模型如何作为 agent 执行长程任务
图表加载中…
bash
# 安装依赖
pip install transformers torch accelerate

# 下载模型
from huggingface_hub import snapshot_download
snapshot_download("poolside/Laguna-M.1")

五、开源 vs 闭源:Laguna M.1 的战略意义

Laguna M.1 的开源发布是 2026 年开源 AI 领域的标志性事件。让我们分析它的战略意义。

5.1 开源编程模型的竞争格局

2026年中的开源编程模型格局:

阵营 代表模型 策略
中国开源 Qwen3.5、DeepSeek-V4 全面开源,性能领先
欧洲开源 Poolside Laguna、Mistral Apache 2.0,强调合规
美国闭源 Claude、GPT API only,性能天花板
美国开源 Meta LLaMA 社区驱动,生态最广

Poolside 的定位: 欧洲(法国)公司,Apache 2.0 完全开源,专注于编程 agent 场景。这与 Mistral 的「通用开源」定位不同,更像是一个「垂直领域开源」的典范。

5.2 对中国开源模型的启示

Laguna M.1 的成功验证了几个关键策略

1. MoE 是开源的最优架构

在开源场景中,MoE 比 dense 更有优势:

  • 用户可以用更少的硬件运行
  • 性能接近甚至超过更大的 dense 模型
  • 社区可以基于 MoE 做更灵活的微调

2. Agent 场景是差异化关键

Laguna M.1 不是「通用聊天模型」,而是专门为 agentic coding 优化的。这种垂直化策略值得中国开源模型借鉴。

3. 训练方法论比模型权重更有价值

Poolside 公开了 Muon 优化器、AutoMixer、异步 Agent RL 等训练技术。这些方法论的价值可能超过模型权重本身——它们让社区可以复现和改进训练过程。

5.3 对开发者的实际影响

短期(1-3个月):

  • 可以在本地运行接近 Claude Sonnet 水平的编程助手
  • 企业可以在内网部署私有编程 AI,无需担心代码泄露
  • 编程 AI 的使用成本将大幅下降

中期(3-12个月):

  • 社区将基于 Laguna 进行大量微调,产生更多垂直场景模型
  • ACP 协议可能成为 agent 开发的新标准
  • 开源编程 AI 将推动「AI 原生开发工具」的爆发

长期(1-3年):

  • 开源 vs 闭源的差距将持续缩小
  • 「模型 + Agent + 工具」的完整生态将成为竞争焦点
  • 编程 AI 将从「辅助工具」进化为「自主开发者」

六、总结:开源 AI 的新纪元

Laguna M.1 的发布标志着开源 AI 进入了一个新阶段——开源模型不再只是闭源模型的「平替」,而是真正的竞争者

关键要点

  1. MoE 架构是效率之王:225B 总参数 / 23B 激活,用更少算力达到更强性能
  2. 训练方法论创新:Muon 优化器、AutoMixer、异步 Agent RL 都值得社区学习
  3. Agent 场景是差异化关键:不做通用聊天,专注编程 agent
  4. 开源生态正在完善:模型 + ACP 协议 + pool agent + Shimmer 环境 = 完整方案
  5. 竞争格局加速变化:DeepSeek > Qwen > Laguna > GLM > Devstral,开源阵营百花齐放

行动建议

  • 开发者:立即下载 Laguna XS.2(3B 激活,普通显卡可跑)体验
  • 团队负责人:评估在内网部署 Laguna M.1 的可行性
  • 架构师:关注 ACP 协议,考虑在新项目中集成
  • 投资者:关注 Poolside 的下一步——XS.2 已经开始预训练 5 周,更大的模型在路上

开源 AI 最好的时代,才刚刚开始。