Hermes 预训练新范式:不改架构也能把成本打下来
2026 年 5 月 15 日,36氪报道。
核心成果
- 算力成本降 60%:在不改变模型架构的情况下显著降低训练成本
- 论文阅读量 41 万+:引发学术界和工业界的广泛关注
- DeepSeek 之后新路径:继 DeepSeek 的 MoE 创新后,Hermes 从预训练方法论层面继续推进
- 不改架构:意味着现有模型架构可以直接受益于新训练方法
行业意义
在大模型算力竞赛进入「拼效率」阶段的 2026 年,Hermes 的预训练优化方法为训练成本高昂的 AI 团队提供了新的降本思路。
来源: 36氪
链接: https://www.36kr.com/
📰 原始来源
https://www.36kr.com/