行业2026-05-16 08:10·36氪

Hermes 团队改写预训练范式:算力成本降低 60%,DeepSeek 之后的提效新路径

Hermes 团队提出新的预训练方法,在不改变模型架构的前提下将算力成本降低六成,论文阅读量突破 41 万次。

Hermes 预训练新范式:不改架构也能把成本打下来

2026 年 5 月 15 日,36氪报道。

核心成果

  • 算力成本降 60%:在不改变模型架构的情况下显著降低训练成本
  • 论文阅读量 41 万+:引发学术界和工业界的广泛关注
  • DeepSeek 之后新路径:继 DeepSeek 的 MoE 创新后,Hermes 从预训练方法论层面继续推进
  • 不改架构:意味着现有模型架构可以直接受益于新训练方法

行业意义

在大模型算力竞赛进入「拼效率」阶段的 2026 年,Hermes 的预训练优化方法为训练成本高昂的 AI 团队提供了新的降本思路。

来源: 36氪
链接: https://www.36kr.com/

📰 原始来源

https://www.36kr.com/