← 首页/AI 资讯

安全今天·Edge AI Daily

开源模型Ornith-1.0超越Claude Opus 4.7,自演进脚手架框架成亮点

Ornith-1.0-397B在编程基准测试中超越Claude Opus 4.7(Terminal-Bench 2.1:77.5 vs 70.3,SWE-Bench Verified:82.4 vs 80.8),但尚未超越最新版Opus 4.8(88.6)。其自演进脚手架框架(Self-Scaffolding)让模型学会设计自己的测试框架,35B版本性能超越10倍参数的Qwen 3.5-397B。

AI Master 解读

核心事件

开源编程模型首次在主流基准测试中超越闭源前沿(Claude Opus 4.7)。

行业影响

影响分析: 开源模型成本优势显著(部署成本降低约90%),推动企业从API消费转向自托管。闭源厂商被迫加速迭代(Opus 4.7到4.8仅41天)。

AI Master 建议

关注Ornith的商用部署案例。Self-Scaffolding方法论可能成为提升模型效率的通用技术路径。

开源模型Ornith-1.0超越Claude Opus 4.7,自演进脚手架框架成亮点

2026年6月,开源模型Ornith-1.0-397B在多项编程基准测试中超越Anthropic Claude Opus 4.7,标志着开源模型在代码能力上首次追平闭源前沿。

基准测试对比


模型	Terminal-Bench 2.1	SWE-Bench Verified
Ornith-1.0-397B	77.5	82.4
Claude Opus 4.7	70.3	80.8
Claude Opus 4.8	-	88.6

技术创新:Self-Scaffolding

Ornith-1.0采用自演进脚手架框架:

模型学会设计自己的测试框架
三层防护机制防止奖励黑客
35B版本性能超越参数10倍的Qwen 3.5-397B

行业格局影响

成本优势: 开源部署成本相比闭源API降低约90%
迭代竞速: 闭源厂商被迫加速(Opus 4.7到4.8仅41天)
双轮格局: 闭源靠迭代速度、开源靠能力追赶

📰 原始来源

https://www.tmtpost.com/8043426.html

下一篇 →

联合国全球AI治理对话7月日内瓦举行,首次所有国家平等参与

📰 更多动态

政策2026-06-28

联合国全球AI治理对话7月日内瓦举行,首次所有国家平等参与

行业2026-06-28

Anthropic自曝不再需要初级工程师,Claude承担大部分代码编写

芯片2026-06-28

微软AI数据中心扩张受阻:7-11GW容量推迟,地方审批成瓶颈