安全今天·Edge AI Daily

开源模型Ornith-1.0超越Claude Opus 4.7,自演进脚手架框架成亮点

Ornith-1.0-397B在编程基准测试中超越Claude Opus 4.7(Terminal-Bench 2.1:77.5 vs 70.3,SWE-Bench Verified:82.4 vs 80.8),但尚未超越最新版Opus 4.8(88.6)。其自演进脚手架框架(Self-Scaffolding)让模型学会设计自己的测试框架,35B版本性能超越10倍参数的Qwen 3.5-397B。

AI Master 解读

核心事件

开源编程模型首次在主流基准测试中超越闭源前沿(Claude Opus 4.7)。

行业影响

影响分析: 开源模型成本优势显著(部署成本降低约90%),推动企业从API消费转向自托管。闭源厂商被迫加速迭代(Opus 4.7到4.8仅41天)。

AI Master 建议

关注Ornith的商用部署案例。Self-Scaffolding方法论可能成为提升模型效率的通用技术路径。

开源模型Ornith-1.0超越Claude Opus 4.7,自演进脚手架框架成亮点

2026年6月,开源模型Ornith-1.0-397B在多项编程基准测试中超越Anthropic Claude Opus 4.7,标志着开源模型在代码能力上首次追平闭源前沿。

基准测试对比

模型 Terminal-Bench 2.1 SWE-Bench Verified
Ornith-1.0-397B 77.5 82.4
Claude Opus 4.7 70.3 80.8
Claude Opus 4.8 - 88.6

技术创新:Self-Scaffolding

Ornith-1.0采用自演进脚手架框架:

  • 模型学会设计自己的测试框架
  • 三层防护机制防止奖励黑客
  • 35B版本性能超越参数10倍的Qwen 3.5-397B

行业格局影响

  1. 成本优势: 开源部署成本相比闭源API降低约90%
  2. 迭代竞速: 闭源厂商被迫加速(Opus 4.7到4.8仅41天)
  3. 双轮格局: 闭源靠迭代速度、开源靠能力追赶