五分钟的 LLM 半年回顾
2026 年 5 月 19 日,Simon Willison 在 PyCon US 2026 上发表演讲。
核心观点
- 最佳模型之争白热化:从 Claude Sonnet 4.5 → GPT-5.1 → Gemini 3 → GPT-5.1 Codex Max → Claude Opus 4.5,半年内五度易手
- 编程 Agent 的质变时刻:2025 年 11 月成为关键转折点,RLVR(可验证奖励的强化学习)让 AI 编程助手从「经常能用」进化到「大部分时间能用」
- Warelay 的崛起:一个当时还不起眼的仓库,后来成为现象级项目
- 「鹈鹕骑自行车」测试:Willison 用这个独特的测试评估各模型的真正理解能力——鹈鹕不会骑自行车,AI 实验室也不会为此专门训练,因此最能检验泛化能力
行业意义
这场演讲反映了 2026 年 LLM 竞争的残酷性:没有一家能保持长期领先,技术迭代速度远超以往任何时期。对开发者而言,这意味着选择模型不再是「选最好的」,而是「选最适合当前任务的」。
来源: Simon Willison's Weblog
链接: https://simonwillison.net/2026/May/19/5-minute-llms/