行业2 天前·Artificial Analysis / Renovate QR

Claude Opus 4.8 登顶 Artificial Analysis 排行榜,终结 GPT-5.5 统治

2026 年 6 月初,Anthropic 发布 Claude Opus 4.8,以 61.4% 综合得分和 1545 Elo 评分在 Artificial Analysis 排行榜上正式超越 OpenAI GPT-5.5,成为当前综合能力最强的 AI 模型。但在编程基准测试中,GPT-5.5 仍以 59.1% 对 56.7% 保持微弱优势。

AI Master 解读

核心事件

Claude Opus 4.8 以 61.4% 综合得分正式超越 GPT-5.5,登顶 Artificial Analysis 排行榜。

行业影响

2026 年 6 月成为 AI 模型史上最密集的发布月,Claude Opus 4.8、GPT-5.5、Gemini 3.5 Pro、Qwen 3.7 Max、MiniMax M3 同台竞技。没有「最好的模型」,只有最适合场景的模型——Opus 4.8 适合复杂推理和长文档任务,GPT-5.5 仍是严格编程任务的首选。

AI Master 建议

建议按场景选型——复杂推理选 Opus 4.8,编程选 GPT-5.5,长文档处理选 Opus 4.8。

Claude Opus 4.8 登顶 AI 排行榜

2026 年 6 月初,Anthropic 发布 Claude Opus 4.8,在多个排行榜上超越竞品。

排行榜表现

模型 综合得分 Arena Elo
Claude Opus 4.8 61.4% 1545
GPT-5.5 60.2% 略低
Gemini 3.5 Flash - 前沿水平
MiniMax M3 - 1528

编程细分

  • GPT-5.5: SWE 59.1%(编程仍领先)
  • Claude Opus 4.8: SWE 56.7%(综合更强)

背景

  • Anthropic 此前因 Project Glasswing(Mythos 限制访问)承压
  • Opus 4.8 代表 Anthropic 在「安全与能力」之间的最新平衡
  • 同期 OpenAI 也在准备 GPT-5.6 和 GPT-6