大语言模型2026-05-19 20:18·Simon Willison's Weblog + PyCon US 2026

Simon Willison 在 PyCon 2026 用 5 分钟回顾过去半年的 LLM 巨变

Simon Willison 在 PyCon US 2026 上发表闪电演讲,用 5 分钟梳理了 2025 年 11 月以来大模型领域的关键转折:最佳模型 5 次易手、编程 Agent 从「偶尔能用」到「日常可用」的质变、以及 Warelay 等开源项目的崛起。

五分钟的 LLM 半年回顾

2026 年 5 月 19 日,Simon Willison 在 PyCon US 2026 上发表演讲。

核心观点

  • 最佳模型之争白热化:从 Claude Sonnet 4.5 → GPT-5.1 → Gemini 3 → GPT-5.1 Codex Max → Claude Opus 4.5,半年内五度易手
  • 编程 Agent 的质变时刻:2025 年 11 月成为关键转折点,RLVR(可验证奖励的强化学习)让 AI 编程助手从「经常能用」进化到「大部分时间能用」
  • Warelay 的崛起:一个当时还不起眼的仓库,后来成为现象级项目
  • 「鹈鹕骑自行车」测试:Willison 用这个独特的测试评估各模型的真正理解能力——鹈鹕不会骑自行车,AI 实验室也不会为此专门训练,因此最能检验泛化能力

行业意义

这场演讲反映了 2026 年 LLM 竞争的残酷性:没有一家能保持长期领先,技术迭代速度远超以往任何时期。对开发者而言,这意味着选择模型不再是「选最好的」,而是「选最适合当前任务的」。

来源: Simon Willison's Weblog
链接: https://simonwillison.net/2026/May/19/5-minute-llms/