大语言模型昨天·凤凰网科技

国产通用大模型第一梯队来新人了?最新开源模型引发关注

凤凰网科技报道,国产通用大模型第一梯队可能出现新成员。在Qwen3.7-Max、GLM-5.1、Kimi K2.6等旗舰模型之外,新的国产大模型正进入第一梯队竞争。

凤凰网科技关注到,国产通用大模型第一梯队可能迎来新成员。

当前国产大模型竞争格局:

  • Qwen3.7-Max:GPQA Diamond 92.4分,超越Claude Opus 4.6 Max
  • GLM-5.1:编程和推理追平闭源旗舰
  • Kimi K2.6:支持300-Agent并发,已上线Ollama
  • DeepSeek V4:成本革命引领者,V4-Flash仅$0.14/百万Token

新进入第一梯队的模型需要在以下维度证明实力:

  • 核心基准测试成绩(GPQA、SWE-bench等)
  • Agent场景的自主执行能力
  • 实际生产环境的稳定性和性价比
  • 开源生态的活跃度和社区支持

国产大模型的快速迭代正在缩小与美国前沿实验室的差距。在Agent时代,模型的竞争力不仅取决于单项基准分数,更取决于工具调用、多步推理和长期自主执行的综合能力。

来源: 凤凰网科技
链接: https://tech.ifeng.com/c/8toTox8S0cm

AI Master 解读

核心事件

国产通用大模型第一梯队可能迎来新成员

行业影响

格局: Qwen3.7-Max、GLM-5.1、Kimi K2.6、DeepSeek V4竞争激烈,新进入者需证明综合实力

AI Master 建议

Agent时代模型竞争力不止于基准分数,工具调用和长期自主执行能力才是关键