行业2 天前·Artificial Analysis / Renovate QR
Claude Opus 4.8 登顶 Artificial Analysis 排行榜,终结 GPT-5.5 统治
2026 年 6 月初,Anthropic 发布 Claude Opus 4.8,以 61.4% 综合得分和 1545 Elo 评分在 Artificial Analysis 排行榜上正式超越 OpenAI GPT-5.5,成为当前综合能力最强的 AI 模型。但在编程基准测试中,GPT-5.5 仍以 59.1% 对 56.7% 保持微弱优势。
AI Master 解读
核心事件
Claude Opus 4.8 以 61.4% 综合得分正式超越 GPT-5.5,登顶 Artificial Analysis 排行榜。
行业影响
2026 年 6 月成为 AI 模型史上最密集的发布月,Claude Opus 4.8、GPT-5.5、Gemini 3.5 Pro、Qwen 3.7 Max、MiniMax M3 同台竞技。没有「最好的模型」,只有最适合场景的模型——Opus 4.8 适合复杂推理和长文档任务,GPT-5.5 仍是严格编程任务的首选。
AI Master 建议
建议按场景选型——复杂推理选 Opus 4.8,编程选 GPT-5.5,长文档处理选 Opus 4.8。
Claude Opus 4.8 登顶 AI 排行榜
2026 年 6 月初,Anthropic 发布 Claude Opus 4.8,在多个排行榜上超越竞品。
排行榜表现
| 模型 | 综合得分 | Arena Elo |
|---|---|---|
| Claude Opus 4.8 | 61.4% | 1545 |
| GPT-5.5 | 60.2% | 略低 |
| Gemini 3.5 Flash | - | 前沿水平 |
| MiniMax M3 | - | 1528 |
编程细分
- GPT-5.5: SWE 59.1%(编程仍领先)
- Claude Opus 4.8: SWE 56.7%(综合更强)
背景
- Anthropic 此前因 Project Glasswing(Mythos 限制访问)承压
- Opus 4.8 代表 Anthropic 在「安全与能力」之间的最新平衡
- 同期 OpenAI 也在准备 GPT-5.6 和 GPT-6