文章摘要
2026年6月,Poolside 正式开源了 Laguna M.1——一个 225B 总参数、23B 激活参数的 Mixture-of-Experts 编程模型。SWE-bench Verified 74.6%、SWE-bench Pro 49.2%,Apache 2.0 协议完全开源。这是开源社区首次拥有能与 Claude Sonnet 4.6 正面竞争的编程模型。本文深度解析 Laguna M.1 的技术架构、训练方法论、以及与 Qwen3.5/DeepSeek-V4 的对比。
引言:开源编程 AI 的分水岭
2026年6月,Poolside 正式开源了 Laguna M.1——一个 225B 总参数、23B 激活参数的 Mixture-of-Experts(MoE)编程模型。
关键数字一览:
| 指标 | 数值 |
|---|---|
| 总参数量 | 225B |
| 激活参数量 | 23B |
| 训练 Token 数 | 30T |
| 训练 GPU | 6,144 × NVIDIA Hopper |
| SWE-bench Verified | 74.6% |
| SWE-bench Pro | 49.2% |
| Terminal-Bench 2.0 | 45.8% |
| 开源协议 | Apache 2.0 |
这意味着什么? 开源社区第一次拥有了一个在编程任务上接近 Claude Sonnet 4.6(SWE-bench Verified 79.6%)的模型——而且完全免费、可本地部署、可商用。
同一天发布的还有更小的 Laguna XS.2(33B 总参数 / 3B 激活),SWE-bench Verified 68.2%,同样 Apache 2.0 开源。
💡 一句话理解
Laguna M.1 的 23B 激活参数意味着单张 48GB 显卡(如 A6000)即可运行推理,不需要多卡并行。
⚠️ 常见踩坑
虽然模型权重开源,但训练数据和部分训练细节尚未完全公开。完全复现仍需等待技术报告。
一、MoE 架构深度解析:为什么 225B 总参数只有 23B 激活
Laguna M.1 采用了 Mixture-of-Experts(MoE) 架构——这是 2025-2026 年大模型领域最重要的架构创新之一。
1.1 MoE 的核心思想
传统 dense 模型(如 LLaMA 70B)的每次推理都会激活全部参数。MoE 模型则不同:
Dense 模型: 每个 token 经过所有层的所有参数
- 70B dense → 每次推理激活 70B 参数
- 计算量 ∝ 总参数量
MoE 模型: 每个 token 只经过「被选中」的少量专家
关键优势: 模型「知道」的东西(总参数量)远多于每次「用到」的东西(激活参数量)。这就像一个大公司有 225 名员工,但每个项目只需要 23 人参与。
1.2 Laguna M.1 的 MoE 设计
根据 Poolside 公开的技术细节:
| 架构参数 | 规格 |
|---|---|
| 总参数 | 225B |
| 激活参数 | 23B(每 token) |
| 专家数量 | 未公开(推测 8-16 个) |
| 路由策略 | Top-K 专家选择 |
| 上下文长度 | 256K tokens |
| 训练数据 | 30T tokens |
1.3 MoE 的效率革命:与同级别模型对比
| 模型 | 总参数 | 激活参数 | SWE-bench Verified | 推理成本 |
|---|---|---|---|---|
| Laguna M.1 | 225B | 23B | 74.6% | 低(23B 激活) |
| Devstral 2 | 123B | 123B (dense) | 72.2% | 高(全激活) |
| GLM-4.7 | 355B | 32B | 73.8% | 中(32B 激活) |
| DeepSeek-V4 Flash | 284B | 13B | 79.0% | 低(13B 激活) |
| Qwen3.5 | 397B | 17B | 76.2% | 低(17B 激活) |
| Claude Sonnet 4.6 | 未公开 | 未公开 | 79.6% | API only |
核心洞察: MoE 架构让 Laguna M.1 用 23B 激活参数 达到了接近 123B dense 模型 的性能。这就是 MoE 的效率优势——你不需要为每个 token 都「叫醒」所有参数。
二、训练方法论:Model Factory 的创新
Laguna M.1 的训练方法论可能是比模型本身更有价值的贡献。Poolside 公开了多个训练技术创新。
2.1 Muon 优化器:替代 AdamW
Laguna M.1 使用 Muon 优化器 而非传统的 AdamW:
| 特性 | AdamW | Muon |
|---|---|---|
| 每参数状态数 | 2(一阶矩 + 二阶矩) | 1 |
| 内存开销 | 较高 | 降低 50% |
| 收敛速度 | 基准 | 相同 loss 少 15% steps |
| 大规模稳定性 | 良好 | 更优 |
为什么重要? 在 6,144 GPU 的训练规模下,优化器的内存开销是核心瓶颈。Muon 将每参数状态从 2 降到 1,意味着在相同硬件上可以训练更大的模型或使用更大的 batch size。
2.2 AutoMixer:自动化数据混合
传统训练需要人工设计数据混合比例(代码:文本:数学:推理 = X:Y:Z:W)。Poolside 开发了 AutoMixer 系统:
- 训练 ~60 个代理模型,每个使用不同的数据混合
- 拟合代理回归器,学习数据混合与最终性能的关系
- 优化混合比例,找到帕累托最优的数据配比
- 最终混合包含 4.4T+ 合成 token
结果: 最终的数据混合方案在多个 benchmark 上超过了人工设计的混合方案。
2.3 异步 Agent RL:GPUDirect RDMA 权重传输
Laguna M.1 的强化学习训练采用了 异步 off-policy agent RL:
- 训练节点和推理节点分离
- 使用 GPUDirect RDMA 在节点间传输权重
- BF16 权重的传输时间 < 5 秒(M.1 规模)
- 避免了 re-tokenization 不匹配问题
为什么这是创新? 传统的 RLHF/RLAIF 训练是同步的——模型生成样本后等待奖励信号,然后更新。异步训练允许模型在等待奖励的同时继续探索,大幅提升训练效率。
2.4 Token-in Token-out 架构
Poolside 特别强调了 Token-in, Token-out actor 设计:
- 避免跨 agent turn 的 re-tokenization 不匹配
- 确保多轮对话中 token 边界一致
- 对 agentic coding 场景尤其重要(一个任务可能包含数百轮工具调用)
三、Benchmark 深度分析:Laguna M.1 的真实水平
Benchmark 数字需要仔细解读。让我们逐项分析 Laguna M.1 在各 benchmark 上的表现。
3.1 SWE-bench Verified:74.6%
SWE-bench Verified 是最权威的编程能力 benchmark——从真实 GitHub issues 中提取任务,要求模型在真实代码仓库中修复 bug 或实现功能。
74.6% 意味着什么?
- 在 100 个真实编程任务中,Laguna M.1 能独立完成约 75 个
- 对比人类开发者:高级开发者在同一 benchmark 上约 85-90%
- 对比其他开源模型:已经是最接近「人类水平」的开源模型之一
3.2 SWE-bench Pro:49.2%
SWE-bench Pro 是更难的专业版——任务更复杂、代码仓库更大、需要更深的推理能力。
49.2% vs 竞争对手:
- DeepSeek-V4 Flash: 52.6%
- Qwen3.5: 50.9%
- Laguna M.1: 49.2%
- Devstral 2: 32.6%
分析: Laguna M.1 在 Pro 版本上略逊于 DeepSeek-V4 Flash 和 Qwen3.5,但差距不大(1.4-3.4 个百分点)。考虑到 Laguna M.1 的激活参数(23B)远少于 Qwen3.5(17B 激活但总参数 397B),这个成绩说明 MoE 效率确实出色。
3.3 Terminal-Bench 2.0:45.8%
Terminal-Bench 2.0 测试的是「长程 agent 任务」——需要在终端环境中完成多步骤操作,包括文件编辑、命令执行、调试等。
45.8% 的定位:
- DeepSeek-V4 Flash: 56.9%
- Qwen3.5: 52.5%
- Laguna M.1: 45.8%
分析: 这是 Laguna M.1 相对较弱的 benchmark。Terminal-Bench 更强调「长程规划」和「工具使用」能力,这可能与 Poolside 的训练数据分布有关。
3.4 综合排名
| 排名 | 模型 | SWE-V | SWE-Pro | TB-2.0 | 综合 |
|---|---|---|---|---|---|
| 1 | Claude Sonnet 4.6 | 79.6% | - | - | 闭源参考 |
| 2 | DeepSeek-V4 Flash | 79.0% | 52.6% | 56.9% | 🥇 开源 |
| 3 | Qwen3.5 | 76.2% | 50.9% | 52.5% | 🥈 开源 |
| 4 | Laguna M.1 | 74.6% | 49.2% | 45.8% | 🥉 开源 |
| 5 | GLM-4.7 | 73.8% | 41.0% | - | 开源 |
| 6 | Devstral 2 | 72.2% | 32.6% | - | 开源 |
关键洞察: DeepSeek-V4 Flash 在各项指标上全面领先开源阵营,但 Laguna M.1 以更少的激活参数(23B vs 13B)达到了有竞争力的成绩——这验证了 MoE 架构的「参数效率」优势。
四、实际部署指南:本地运行 Laguna M.1
Laguna M.1 以 Apache 2.0 开源,意味着你可以完全自由地部署和使用。
4.1 硬件需求
最低配置(量化推理):
推荐配置(全精度推理):
4.2 使用方式
方式一:Hugging Face 直接下载
方式二:Poolside API(限时免费)
Poolside 提供了限时免费的 API 端点,以及通过 OpenRouter 的访问。
方式三:本地 Agent 工具
Poolside 同步开源了 pool——一个终端编程 agent,以及 Shimmer——一个云端开发环境。两者都针对 Laguna 模型做了优化。
4.3 ACP 协议:模型与 Agent 的统一接口
Laguna M.1 发布时同步开源了 Agent Client Protocol (ACP) server——这是 Poolside 用于 agent RL 训练和评估的同一套协议。
ACP 的核心理念: 模型和 agent 不应该被分开看待。在 agentic coding 场景中,模型就是 agent 的「大脑」,agent harness 就是「身体」。两者需要协同设计和优化。
这与 MCP(Model Context Protocol)形成互补:
# 安装依赖
pip install transformers torch accelerate
# 下载模型
from huggingface_hub import snapshot_download
snapshot_download("poolside/Laguna-M.1")五、开源 vs 闭源:Laguna M.1 的战略意义
Laguna M.1 的开源发布是 2026 年开源 AI 领域的标志性事件。让我们分析它的战略意义。
5.1 开源编程模型的竞争格局
2026年中的开源编程模型格局:
| 阵营 | 代表模型 | 策略 |
|---|---|---|
| 中国开源 | Qwen3.5、DeepSeek-V4 | 全面开源,性能领先 |
| 欧洲开源 | Poolside Laguna、Mistral | Apache 2.0,强调合规 |
| 美国闭源 | Claude、GPT | API only,性能天花板 |
| 美国开源 | Meta LLaMA | 社区驱动,生态最广 |
Poolside 的定位: 欧洲(法国)公司,Apache 2.0 完全开源,专注于编程 agent 场景。这与 Mistral 的「通用开源」定位不同,更像是一个「垂直领域开源」的典范。
5.2 对中国开源模型的启示
Laguna M.1 的成功验证了几个关键策略:
1. MoE 是开源的最优架构
在开源场景中,MoE 比 dense 更有优势:
2. Agent 场景是差异化关键
Laguna M.1 不是「通用聊天模型」,而是专门为 agentic coding 优化的。这种垂直化策略值得中国开源模型借鉴。
3. 训练方法论比模型权重更有价值
Poolside 公开了 Muon 优化器、AutoMixer、异步 Agent RL 等训练技术。这些方法论的价值可能超过模型权重本身——它们让社区可以复现和改进训练过程。
5.3 对开发者的实际影响
短期(1-3个月):
- 可以在本地运行接近 Claude Sonnet 水平的编程助手
- 企业可以在内网部署私有编程 AI,无需担心代码泄露
- 编程 AI 的使用成本将大幅下降
中期(3-12个月):
长期(1-3年):
- 开源 vs 闭源的差距将持续缩小
- 「模型 + Agent + 工具」的完整生态将成为竞争焦点
- 编程 AI 将从「辅助工具」进化为「自主开发者」
六、总结:开源 AI 的新纪元
Laguna M.1 的发布标志着开源 AI 进入了一个新阶段——开源模型不再只是闭源模型的「平替」,而是真正的竞争者。
关键要点
- MoE 架构是效率之王:225B 总参数 / 23B 激活,用更少算力达到更强性能
- 训练方法论创新:Muon 优化器、AutoMixer、异步 Agent RL 都值得社区学习
- Agent 场景是差异化关键:不做通用聊天,专注编程 agent
- 开源生态正在完善:模型 + ACP 协议 + pool agent + Shimmer 环境 = 完整方案
- 竞争格局加速变化:DeepSeek > Qwen > Laguna > GLM > Devstral,开源阵营百花齐放
行动建议
- 开发者:立即下载 Laguna XS.2(3B 激活,普通显卡可跑)体验
- 团队负责人:评估在内网部署 Laguna M.1 的可行性
- 架构师:关注 ACP 协议,考虑在新项目中集成
- 投资者:关注 Poolside 的下一步——XS.2 已经开始预训练 5 周,更大的模型在路上
开源 AI 最好的时代,才刚刚开始。