Poolside 开源 Laguna M.1：2250亿参数 MoE 模型如何重新定义「开源编程 AI」

💡

文章摘要

2026年6月，Poolside 正式开源了 Laguna M.1——一个 225B 总参数、23B 激活参数的 Mixture-of-Experts 编程模型。SWE-bench Verified 74.6%、SWE-bench Pro 49.2%，Apache 2.0 协议完全开源。这是开源社区首次拥有能与 Claude Sonnet 4.6 正面竞争的编程模型。本文深度解析 Laguna M.1 的技术架构、训练方法论、以及与 Qwen3.5/DeepSeek-V4 的对比。

引言：开源编程 AI 的分水岭

2026年6月，Poolside 正式开源了 Laguna M.1——一个 225B 总参数、23B 激活参数的 Mixture-of-Experts（MoE）编程模型。

关键数字一览：


指标	数值
总参数量	225B
激活参数量	23B
训练 Token 数	30T
训练 GPU	6,144 × NVIDIA Hopper
SWE-bench Verified	74.6%
SWE-bench Pro	49.2%
Terminal-Bench 2.0	45.8%
开源协议	Apache 2.0

这意味着什么？ 开源社区第一次拥有了一个在编程任务上接近 Claude Sonnet 4.6（SWE-bench Verified 79.6%）的模型——而且完全免费、可本地部署、可商用。

同一天发布的还有更小的 Laguna XS.2（33B 总参数 / 3B 激活），SWE-bench Verified 68.2%，同样 Apache 2.0 开源。

💡 一句话理解

Laguna M.1 的 23B 激活参数意味着单张 48GB 显卡（如 A6000）即可运行推理，不需要多卡并行。

⚠️ 常见踩坑

虽然模型权重开源，但训练数据和部分训练细节尚未完全公开。完全复现仍需等待技术报告。

一、MoE 架构深度解析：为什么 225B 总参数只有 23B 激活

Laguna M.1 采用了 Mixture-of-Experts（MoE） 架构——这是 2025-2026 年大模型领域最重要的架构创新之一。

1.1 MoE 的核心思想

传统 dense 模型（如 LLaMA 70B）的每次推理都会激活全部参数。MoE 模型则不同：

Dense 模型： 每个 token 经过所有层的所有参数

70B dense → 每次推理激活 70B 参数
计算量 ∝ 总参数量

MoE 模型： 每个 token 只经过「被选中」的少量专家

225B total / 23B active → 每次推理只激活 23B 参数
计算量 ∝ 激活参数量（23B），而非总参数量（225B）

关键优势： 模型「知道」的东西（总参数量）远多于每次「用到」的东西（激活参数量）。这就像一个大公司有 225 名员工，但每个项目只需要 23 人参与。

1.2 Laguna M.1 的 MoE 设计

根据 Poolside 公开的技术细节：


架构参数	规格
总参数	225B
激活参数	23B（每 token）
专家数量	未公开（推测 8-16 个）
路由策略	Top-K 专家选择
上下文长度	256K tokens
训练数据	30T tokens

1.3 MoE 的效率革命：与同级别模型对比


模型	总参数	激活参数	SWE-bench Verified	推理成本
Laguna M.1	225B	23B	74.6%	低（23B 激活）
Devstral 2	123B	123B (dense)	72.2%	高（全激活）
GLM-4.7	355B	32B	73.8%	中（32B 激活）
DeepSeek-V4 Flash	284B	13B	79.0%	低（13B 激活）
Qwen3.5	397B	17B	76.2%	低（17B 激活）
Claude Sonnet 4.6	未公开	未公开	79.6%	API only

核心洞察： MoE 架构让 Laguna M.1 用 23B 激活参数 达到了接近 123B dense 模型 的性能。这就是 MoE 的效率优势——你不需要为每个 token 都「叫醒」所有参数。

图表加载中…

二、训练方法论：Model Factory 的创新

Laguna M.1 的训练方法论可能是比模型本身更有价值的贡献。Poolside 公开了多个训练技术创新。

2.1 Muon 优化器：替代 AdamW

Laguna M.1 使用 Muon 优化器 而非传统的 AdamW：


特性	AdamW	Muon
每参数状态数	2（一阶矩 + 二阶矩）	1
内存开销	较高	降低 50%
收敛速度	基准	相同 loss 少 15% steps
大规模稳定性	良好	更优

为什么重要？ 在 6,144 GPU 的训练规模下，优化器的内存开销是核心瓶颈。Muon 将每参数状态从 2 降到 1，意味着在相同硬件上可以训练更大的模型或使用更大的 batch size。

2.2 AutoMixer：自动化数据混合

传统训练需要人工设计数据混合比例（代码:文本:数学:推理 = X:Y:Z:W）。Poolside 开发了 AutoMixer 系统：

训练 ~60 个代理模型，每个使用不同的数据混合
拟合代理回归器，学习数据混合与最终性能的关系
优化混合比例，找到帕累托最优的数据配比
最终混合包含 4.4T+ 合成 token

结果： 最终的数据混合方案在多个 benchmark 上超过了人工设计的混合方案。

2.3 异步 Agent RL：GPUDirect RDMA 权重传输

Laguna M.1 的强化学习训练采用了 异步 off-policy agent RL：

训练节点和推理节点分离
使用 GPUDirect RDMA 在节点间传输权重
BF16 权重的传输时间 < 5 秒（M.1 规模）
避免了 re-tokenization 不匹配问题

为什么这是创新？ 传统的 RLHF/RLAIF 训练是同步的——模型生成样本后等待奖励信号，然后更新。异步训练允许模型在等待奖励的同时继续探索，大幅提升训练效率。

2.4 Token-in Token-out 架构

Poolside 特别强调了 Token-in, Token-out actor 设计：

避免跨 agent turn 的 re-tokenization 不匹配
确保多轮对话中 token 边界一致
对 agentic coding 场景尤其重要（一个任务可能包含数百轮工具调用）

图表加载中…

三、Benchmark 深度分析：Laguna M.1 的真实水平

Benchmark 数字需要仔细解读。让我们逐项分析 Laguna M.1 在各 benchmark 上的表现。

3.1 SWE-bench Verified：74.6%

SWE-bench Verified 是最权威的编程能力 benchmark——从真实 GitHub issues 中提取任务，要求模型在真实代码仓库中修复 bug 或实现功能。

74.6% 意味着什么？

在 100 个真实编程任务中，Laguna M.1 能独立完成约 75 个
对比人类开发者：高级开发者在同一 benchmark 上约 85-90%
对比其他开源模型：已经是最接近「人类水平」的开源模型之一

3.2 SWE-bench Pro：49.2%

SWE-bench Pro 是更难的专业版——任务更复杂、代码仓库更大、需要更深的推理能力。

49.2% vs 竞争对手：

DeepSeek-V4 Flash: 52.6%
Qwen3.5: 50.9%
Laguna M.1: 49.2%
Devstral 2: 32.6%

分析： Laguna M.1 在 Pro 版本上略逊于 DeepSeek-V4 Flash 和 Qwen3.5，但差距不大（1.4-3.4 个百分点）。考虑到 Laguna M.1 的激活参数（23B）远少于 Qwen3.5（17B 激活但总参数 397B），这个成绩说明 MoE 效率确实出色。

3.3 Terminal-Bench 2.0：45.8%

Terminal-Bench 2.0 测试的是「长程 agent 任务」——需要在终端环境中完成多步骤操作，包括文件编辑、命令执行、调试等。

45.8% 的定位：

DeepSeek-V4 Flash: 56.9%
Qwen3.5: 52.5%
Laguna M.1: 45.8%

分析： 这是 Laguna M.1 相对较弱的 benchmark。Terminal-Bench 更强调「长程规划」和「工具使用」能力，这可能与 Poolside 的训练数据分布有关。

3.4 综合排名


排名	模型	SWE-V	SWE-Pro	TB-2.0	综合
1	Claude Sonnet 4.6	79.6%	-	-	闭源参考
2	DeepSeek-V4 Flash	79.0%	52.6%	56.9%	🥇 开源
3	Qwen3.5	76.2%	50.9%	52.5%	🥈 开源
4	Laguna M.1	74.6%	49.2%	45.8%	🥉 开源
5	GLM-4.7	73.8%	41.0%	-	开源
6	Devstral 2	72.2%	32.6%	-	开源

关键洞察： DeepSeek-V4 Flash 在各项指标上全面领先开源阵营，但 Laguna M.1 以更少的激活参数（23B vs 13B）达到了有竞争力的成绩——这验证了 MoE 架构的「参数效率」优势。

四、实际部署指南：本地运行 Laguna M.1

Laguna M.1 以 Apache 2.0 开源，意味着你可以完全自由地部署和使用。

4.1 硬件需求

最低配置（量化推理）：

GPU：1× NVIDIA A6000 48GB（或 1× A100 40GB + INT4 量化）
RAM：64GB+
存储：~120GB（BF16 权重）/ ~60GB（INT4 量化）

推荐配置（全精度推理）：

GPU：2× NVIDIA A100 80GB 或 4× A6000 48GB
RAM：128GB+
存储：~450GB（BF16 权重 + KV cache 空间）

4.2 使用方式

方式一：Hugging Face 直接下载

方式二：Poolside API（限时免费）

Poolside 提供了限时免费的 API 端点，以及通过 OpenRouter 的访问。

方式三：本地 Agent 工具

Poolside 同步开源了 pool——一个终端编程 agent，以及 Shimmer——一个云端开发环境。两者都针对 Laguna 模型做了优化。

4.3 ACP 协议：模型与 Agent 的统一接口

Laguna M.1 发布时同步开源了 Agent Client Protocol (ACP) server——这是 Poolside 用于 agent RL 训练和评估的同一套协议。

ACP 的核心理念： 模型和 agent 不应该被分开看待。在 agentic coding 场景中，模型就是 agent 的「大脑」，agent harness 就是「身体」。两者需要协同设计和优化。

这与 MCP（Model Context Protocol）形成互补：

MCP：解决模型如何访问外部工具和数据
ACP：解决模型如何作为 agent 执行长程任务

图表加载中…

bash

# 安装依赖
pip install transformers torch accelerate

# 下载模型
from huggingface_hub import snapshot_download
snapshot_download("poolside/Laguna-M.1")

五、开源 vs 闭源：Laguna M.1 的战略意义

Laguna M.1 的开源发布是 2026 年开源 AI 领域的标志性事件。让我们分析它的战略意义。

5.1 开源编程模型的竞争格局

2026年中的开源编程模型格局：


阵营	代表模型	策略
中国开源	Qwen3.5、DeepSeek-V4	全面开源，性能领先
欧洲开源	Poolside Laguna、Mistral	Apache 2.0，强调合规
美国闭源	Claude、GPT	API only，性能天花板
美国开源	Meta LLaMA	社区驱动，生态最广

Poolside 的定位： 欧洲（法国）公司，Apache 2.0 完全开源，专注于编程 agent 场景。这与 Mistral 的「通用开源」定位不同，更像是一个「垂直领域开源」的典范。

5.2 对中国开源模型的启示

Laguna M.1 的成功验证了几个关键策略：

1. MoE 是开源的最优架构

在开源场景中，MoE 比 dense 更有优势：

用户可以用更少的硬件运行
性能接近甚至超过更大的 dense 模型
社区可以基于 MoE 做更灵活的微调

2. Agent 场景是差异化关键

Laguna M.1 不是「通用聊天模型」，而是专门为 agentic coding 优化的。这种垂直化策略值得中国开源模型借鉴。

3. 训练方法论比模型权重更有价值

Poolside 公开了 Muon 优化器、AutoMixer、异步 Agent RL 等训练技术。这些方法论的价值可能超过模型权重本身——它们让社区可以复现和改进训练过程。

5.3 对开发者的实际影响

短期（1-3个月）：

可以在本地运行接近 Claude Sonnet 水平的编程助手
企业可以在内网部署私有编程 AI，无需担心代码泄露
编程 AI 的使用成本将大幅下降

中期（3-12个月）：

社区将基于 Laguna 进行大量微调，产生更多垂直场景模型
ACP 协议可能成为 agent 开发的新标准
开源编程 AI 将推动「AI 原生开发工具」的爆发

长期（1-3年）：

开源 vs 闭源的差距将持续缩小
「模型 + Agent + 工具」的完整生态将成为竞争焦点
编程 AI 将从「辅助工具」进化为「自主开发者」

六、总结：开源 AI 的新纪元

Laguna M.1 的发布标志着开源 AI 进入了一个新阶段——开源模型不再只是闭源模型的「平替」，而是真正的竞争者。

关键要点

MoE 架构是效率之王：225B 总参数 / 23B 激活，用更少算力达到更强性能
训练方法论创新：Muon 优化器、AutoMixer、异步 Agent RL 都值得社区学习
Agent 场景是差异化关键：不做通用聊天，专注编程 agent
开源生态正在完善：模型 + ACP 协议 + pool agent + Shimmer 环境 = 完整方案
竞争格局加速变化：DeepSeek > Qwen > Laguna > GLM > Devstral，开源阵营百花齐放

行动建议

开发者：立即下载 Laguna XS.2（3B 激活，普通显卡可跑）体验
团队负责人：评估在内网部署 Laguna M.1 的可行性
架构师：关注 ACP 协议，考虑在新项目中集成
投资者：关注 Poolside 的下一步——XS.2 已经开始预训练 5 周，更大的模型在路上

开源 AI 最好的时代，才刚刚开始。

📚 相关文章推荐

📝

vibe coding

编程真的会消亡吗：从 vibe coding 到 AI 原生开发的范式转移

2026年2月12日，马斯克在节目中预测：到2026年底，人类将不再需要手写代码，AI将直接生成优化的二进制程序。与此同时，Anthropic报告Claude已编写80%以上的合并代码，工程师每日合并代码量是2024年的8倍。SpaceX获得以600亿美元收购Cursor的权利，Replit估值飙升至90亿美元。编程真的会消亡吗？还是正在经历一场从「写代码」到「聊代码」的范式转移？本文从技术现实、行业数据和历史规律三个维度，解析这场正在发生的软件开发革命。

📝

AI Agent

2026 年 AI Agent 自主决策系统实战指南：从 Claude Fable 5 到生产级部署

2026 年 6 月，AI Agent 已经从「工具」进化为「决策者」。本文手把手教你构建一个完整的自主决策 Agent 系统，涵盖技术栈选型（Claude Fable 5 + Mem0 + MCP）、扩展思考实战、记忆系统集成、生产级部署架构、成本优化策略，以及 2026 年下半年的趋势展望。附带完整代码示例和 Kubernetes 部署配置。

继续探索更多 AI 内容

浏览更多博客文章，或者深入学习 AI 核心知识

📝 浏览更多博客 📚 探索知识库

Poolside 开源 Laguna M.1：2250亿参数 MoE 模型如何重新定义「开源编程 AI」

文章摘要

引言：开源编程 AI 的分水岭

一、MoE 架构深度解析：为什么 225B 总参数只有 23B 激活

1.1 MoE 的核心思想

1.2 Laguna M.1 的 MoE 设计

1.3 MoE 的效率革命：与同级别模型对比

二、训练方法论：Model Factory 的创新

2.1 Muon 优化器：替代 AdamW

2.2 AutoMixer：自动化数据混合

2.3 异步 Agent RL：GPUDirect RDMA 权重传输

2.4 Token-in Token-out 架构

三、Benchmark 深度分析：Laguna M.1 的真实水平

3.1 SWE-bench Verified：74.6%

3.2 SWE-bench Pro：49.2%

3.3 Terminal-Bench 2.0：45.8%

3.4 综合排名

四、实际部署指南：本地运行 Laguna M.1

4.1 硬件需求

4.2 使用方式

4.3 ACP 协议：模型与 Agent 的统一接口

五、开源 vs 闭源：Laguna M.1 的战略意义

5.1 开源编程模型的竞争格局

5.2 对中国开源模型的启示

5.3 对开发者的实际影响

六、总结：开源 AI 的新纪元

关键要点

行动建议

标签

📚 相关文章推荐

编程真的会消亡吗：从 vibe coding 到 AI 原生开发的范式转移

2026 年 AI Agent 自主决策系统实战指南：从 Claude Fable 5 到生产级部署

继续探索更多 AI 内容