← 首页/AI 资讯

大语言模型2026-05-19 20:18·Simon Willison's Weblog + PyCon US 2026

Simon Willison 在 PyCon 2026 用 5 分钟回顾过去半年的 LLM 巨变

Simon Willison 在 PyCon US 2026 上发表闪电演讲，用 5 分钟梳理了 2025 年 11 月以来大模型领域的关键转折：最佳模型 5 次易手、编程 Agent 从「偶尔能用」到「日常可用」的质变、以及 Warelay 等开源项目的崛起。

五分钟的 LLM 半年回顾

2026 年 5 月 19 日，Simon Willison 在 PyCon US 2026 上发表演讲。

核心观点

最佳模型之争白热化：从 Claude Sonnet 4.5 → GPT-5.1 → Gemini 3 → GPT-5.1 Codex Max → Claude Opus 4.5，半年内五度易手
编程 Agent 的质变时刻：2025 年 11 月成为关键转折点，RLVR（可验证奖励的强化学习）让 AI 编程助手从「经常能用」进化到「大部分时间能用」
Warelay 的崛起：一个当时还不起眼的仓库，后来成为现象级项目
「鹈鹕骑自行车」测试：Willison 用这个独特的测试评估各模型的真正理解能力——鹈鹕不会骑自行车，AI 实验室也不会为此专门训练，因此最能检验泛化能力

行业意义

这场演讲反映了 2026 年 LLM 竞争的残酷性：没有一家能保持长期领先，技术迭代速度远超以往任何时期。对开发者而言，这意味着选择模型不再是「选最好的」，而是「选最适合当前任务的」。

来源: Simon Willison's Weblog
链接: https://simonwillison.net/2026/May/19/5-minute-llms/

📰 原始来源

https://simonwillison.net/2026/May/19/5-minute-llms/

← 上一篇

OpenAI 与 Anthropic 同日发布对抗模型：AI 编程军备竞赛全面升级

下一篇 →

Agora-1 发布：首个多智能体世界模型，让 AI Agent 共享物理环境

📰 更多动态

行业2026-05-18 00:00

Eclipse 获 25 亿美元 Cerebras 订单，验证物理世界 AI 基础设施投资逻辑

行业2026-05-18 00:00

TechCrunch 深度分析：AI 淘金热中的赢家与输家，贫富差距正在扩大

行业2026-05-18 00:00

Cisco 创收与裁员同日宣布：AI 转型下的科技巨头两难