安全今天·Edge AI Daily
开源模型Ornith-1.0超越Claude Opus 4.7,自演进脚手架框架成亮点
Ornith-1.0-397B在编程基准测试中超越Claude Opus 4.7(Terminal-Bench 2.1:77.5 vs 70.3,SWE-Bench Verified:82.4 vs 80.8),但尚未超越最新版Opus 4.8(88.6)。其自演进脚手架框架(Self-Scaffolding)让模型学会设计自己的测试框架,35B版本性能超越10倍参数的Qwen 3.5-397B。
AI Master 解读
核心事件
开源编程模型首次在主流基准测试中超越闭源前沿(Claude Opus 4.7)。
行业影响
影响分析: 开源模型成本优势显著(部署成本降低约90%),推动企业从API消费转向自托管。闭源厂商被迫加速迭代(Opus 4.7到4.8仅41天)。
AI Master 建议
关注Ornith的商用部署案例。Self-Scaffolding方法论可能成为提升模型效率的通用技术路径。
开源模型Ornith-1.0超越Claude Opus 4.7,自演进脚手架框架成亮点
2026年6月,开源模型Ornith-1.0-397B在多项编程基准测试中超越Anthropic Claude Opus 4.7,标志着开源模型在代码能力上首次追平闭源前沿。
基准测试对比
| 模型 | Terminal-Bench 2.1 | SWE-Bench Verified |
|---|---|---|
| Ornith-1.0-397B | 77.5 | 82.4 |
| Claude Opus 4.7 | 70.3 | 80.8 |
| Claude Opus 4.8 | - | 88.6 |
技术创新:Self-Scaffolding
Ornith-1.0采用自演进脚手架框架:
- 模型学会设计自己的测试框架
- 三层防护机制防止奖励黑客
- 35B版本性能超越参数10倍的Qwen 3.5-397B
行业格局影响
- 成本优势: 开源部署成本相比闭源API降低约90%
- 迭代竞速: 闭源厂商被迫加速(Opus 4.7到4.8仅41天)
- 双轮格局: 闭源靠迭代速度、开源靠能力追赶