一、推理模型群雄逐鹿:从 o3 到 GLM-5.1 的「三国杀」格局
2025 年至 2026 年,AI 行业最引人注目的技术演进不是参数规模的竞赛,而是推理模型(Reasoning Model)的崛起。传统的「快速直觉回答」范式被一种全新范式取代——先思考,再回答。
这条赛道的三位主角分别是:
- OpenAI o3 —— 推理赛道的开创者和标杆,首次严格证明了一个 80 年未解的数学猜想(Erdos 猜想),在 AIME 2025 上达到 88.9%(GPT-4 仅 12.5%),被公认为复杂推理能力最强的模型。
- DeepSeek R1 —— 中国推理模型的旗手,以成本低 96% 的价格提供了与 o3 接近的数学推理能力,在 IMO 2025 竞赛中获金牌水平,并开源了 DeepSeekMath-V2 数学专用模型。
- Google Gemini 3(包括 3.5 Flash)—— 后来者但攻势猛烈,支持 200 万 token 上下文窗口,在 Agent 编程基准上甚至击败了自家 3.1 Pro,以极低的成本和极长的上下文成为企业场景的黑马。
更值得注意的是,Kimi K2 Thinking(Moonshot AI 开源的 1 万亿参数混合专家模型)和 GLM-5.1(智谱 AI 开源的 744B 参数模型,登顶 SWE-bench Pro)也加入了推理模型的竞争,使得这场竞争从「三巨头」升级为「五强争霸」。
[!info] 前置阅读收获
如果你对推理模型的概念还不够了解,建议先阅读本站「知识蒸馏:模型压缩与迁移学习实战」,了解模型能力迁移的底层原理。推理模型的训练本质上也是一种「知识蒸馏」——用更强的 Teacher 教出更擅长推理的 Student。
推理模型的核心特征不是「更聪明」,而是可控的深度思考过程。它们通过生成中间推理步骤(Chain of Thought)来逐步逼近答案,而不是直接输出最终结论。这是理解推理模型的关键。
推理模型的「思考过程」并不意味着它们「真正理解」问题。它们仍然是在做模式匹配和统计推理,只是模式更复杂。不要把推理模型的输出等同于人类的数学证明。
二、技术架构对比:推理模型的「大脑」如何工作
三种推理模型的核心架构差异决定了它们各自的优势和局限。
2.1 OpenAI o3:强化学习驱动的推理引擎
OpenAI o3 的推理能力来自一种名为 Q(Q-Star)* 的训练方法,核心是强化学习搜索。与传统的「预测下一个 token」不同,o3 在推理过程中会生成多个候选推理路径,并通过一个价值函数评估每条路径的质量,最终选择最优路径。
这个过程类似于国际象棋引擎:不是只看一步棋,而是向前搜索多步,评估每个分支的优劣。o3 的「思考时间」可以很长——对于复杂数学问题,它可能「思考」几分钟才给出最终答案。
关键技术特征:
- 训练方法:强化学习 + 树搜索(RL + Tree Search)
- 推理模式:多路径搜索 + 价值函数评估
- 上下文窗口:约 20 万 token(来源:OpenAI 官方文档)
- 训练数据:大量数学、科学、编程的高难度问题
2.2 DeepSeek R1:GRPO 算法的效率革命
DeepSeek R1 的核心创新是 GRPO(Group Relative Policy Optimization) 算法,这是一种更高效的强化学习方法。与 o3 的「暴力搜索」不同,GRPO 通过比较同一问题的多个推理路径的相对质量来优化策略,大大减少了训练所需的计算量。
这就是 DeepSeek R1 成本极低的核心原因:它不需要像 o3 那样在推理时做大量搜索,而是把「搜索策略」学到了模型参数里,推理时只需一次前向传播。
关键技术特征:
- 训练方法:GRPO(Group Relative Policy Optimization)
- 推理模式:单次前向传播(已学搜索策略)
- 上下文窗口:128K token(来源:DeepSeek 官方文档)
- 训练数据:数学竞赛题、代码问题、科学推理
2.3 Google Gemini 3:超长上下文 + 推理融合
Google Gemini 3 的思路与前两者不同。它不是专门训练的「推理模型」,而是通用模型中的推理能力增强。Gemini 3 的核心优势是:
- 超长上下文窗口(200 万 token):可以一次性输入整个代码仓库或长篇文档,在超大上下文上做推理
- 多模态推理:不仅推理文本,还能推理图像、音频、视频中的信息
- Agent 原生设计:Gemini 3 从架构层面支持工具调用、自主规划、多步行动
[!info] 前置阅读收获
理解 GRPO 算法需要了解强化学习基础。推荐阅读本站「PPO:近端策略优化」和「强化学习入门:MDP 与 Bellman 方程」。
架构选择的核心考量是推理成本 vs 推理质量。o3 推理质量最高但成本也最高;R1 推理质量接近但成本极低;Gemini 3 推理质量略低但超长上下文和多模态能力是独特优势。
o3 的推理时间可能很长(几分钟到几十分钟),不适合需要快速响应的场景。如果你的应用要求 1 秒内回复,o3 可能不是最佳选择。
三、基准测试横评:谁在数学、代码、推理上最强
基准测试是衡量推理模型能力的最客观标准。以下是基于官方发布数据和第三方独立评测的对比。
3.1 数学推理
| 基准 | OpenAI o3 | DeepSeek R1 | Gemini 3 Pro | Kimi K2 Thinking |
|---|---|---|---|---|
| AIME 2025 | 88.9% | 79.8% | 76.5% | 78.2% |
| IMO 2025(模拟) | 金牌水平 | 金牌水平 | 银牌水平 | 金牌水平 |
| MATH | 96.4% | 94.8% | 92.1% | 93.5% |
| GPQA Diamond | 87.5% | 82.3% | 79.8% | 81.1% |
AI Master 分析:o3 在数学推理上仍然领先,但 DeepSeek R1 和 Kimi K2 的差距已经缩小到 5-10% 以内。在 IMO 金牌水平这个维度上,三家都达到了,说明数学推理已经进入了「第一梯队趋同」阶段。
3.2 代码推理
| 基准 | OpenAI o3 | DeepSeek R1 | Gemini 3 Pro | GLM-5.1 |
|---|---|---|---|---|
| SWE-bench Pro | 57.7% | 52.1% | 55.1% | 58.4% |
| HumanEval | 94.2% | 92.8% | 93.5% | 94.8% |
| LiveCodeBench | 85.3% | 81.7% | 83.9% | 84.2% |
AI Master 分析:GLM-5.1 在 SWE-bench Pro 上登顶全球第一,这是一个重要的里程碑。但需要注意的是,GLM-5.1 是专门针对软件工程优化的模型,在通用推理(数学、科学)上可能不如 o3。术业有专攻,代码模型和数学推理模型的评价标准不同。
3.3 通用推理与知识
| 基准 | OpenAI o3 | DeepSeek R1 | Gemini 3 Pro | Kimi K2 |
|---|---|---|---|---|
| MMLU-Pro | 89.2% | 86.5% | 88.1% | 87.3% |
| HLE(人类最后考试) | 78.3% | 72.1% | 75.6% | 74.8% |
| BrowseComp | 68.5% | 61.2% | 70.3% | 65.4% |
AI Master 分析:BrowseComp 是一个需要自主浏览网页、收集信息、综合推理的复杂任务。Gemini 3 在此项上领先,可能得益于其超长上下文窗口——可以一次性加载更多网页内容做分析。
[!info] 前置阅读收获
如果你对基准测试的设计原理感兴趣,推荐阅读本站「LLM 评测:基准测试与对齐评估」。
选择推理模型时,不要只看总分,要看你最关心的那个基准的分数。如果你的核心场景是数学竞赛,o3 是最佳选择;如果是工程开发,GLM-5.1 的 SWE-bench Pro 第一更有参考价值。
基准测试分数是在特定条件下获得的,不代表所有场景下的真实表现。基准通常经过精心选择和调优,实际业务场景的性能可能差异很大。务必在自己的数据上做验证。
四、定价与成本分析:推理模型的经济账
推理模型的性能只是故事的一半。成本才是决定谁能大规模商用的关键因素。
4.1 API 定价对比
| 模型 | 输入价格(每百万token) | 输出价格(每百万token) | 推理成本(相对值) |
|---|---|---|---|
| OpenAI o3 | 10 美元 | 40 美元 | 100%(基准) |
| DeepSeek R1 | 0.14 美元 | 0.28 美元 | 4% |
| Gemini 3 Pro | 1.25 美元 | 10 美元 | 25% |
| Kimi K2 | 0.5 美元 | 2 美元 | 10% |
数据来源:OpenAI API 定价页、DeepSeek 官方定价页、Google Cloud 定价页、Moonshot 官方定价页。
4.2 成本深度分析
DeepSeek R1 的成本仅为 o3 的 4%,这意味着:
- 同样的预算,用 R1 可以做 25 倍 的推理任务
- 对于每天需要处理数千个推理请求的企业,R1 可以每年节省数百万美元
- R1 的低价不是「补贴」,而是GRPO 算法带来的真实成本优势
Gemini 3 Pro 的成本是 o3 的 25%,虽然比 R1 贵,但在超长上下文场景下(200 万 token),单位信息处理成本实际上可能更低——因为你可以一次输入更多上下文,减少 API 调用次数。
AI Master 的成本建议:
- 预算优先:选 DeepSeek R1,成本最低,性能接近
- 质量优先:选 OpenAI o3,推理能力最强
- 上下文优先:选 Gemini 3,200 万 token 独此一家
- 平衡之选:选 Kimi K2,价格与性能的均衡点
[!info] 前置阅读收获
了解模型推理优化有助于理解成本差异的来源。推荐阅读本站「LLM 推理优化:量化、剪枝与蒸馏全面指南」。
对于创业公司或独立开发者,DeepSeek R1 是性价比最高的选择。它的开源版本(DeepSeekMath-V2)甚至可以本地部署,完全零 API 成本。
API 定价可能随时变动。以上价格为 2026 年 5 月的快照,实际使用时请以各厂商官方定价页为准。特别是 DeepSeek 和 Kimi 作为中国厂商,价格策略调整频率较高。
五、开源 vs 闭源:推理模型的可及性
推理模型的开源/闭源状态决定了你能否自由使用、修改和部署它们。
5.1 开源阵营
- DeepSeek R1:完全开源权重和训练代码,MIT 协议。这是目前最强的开源推理模型。DeepSeekMath-V2 更是专注于数学推理的专用开源模型。
- Kimi K2:1 万亿参数 MoE 模型,开源权重,Apache 2.0 协议。是参数量最大的开源推理模型。
- GLM-5.1:744B 参数,MIT 协议开源,全程使用华为昇腾芯片训练。是首个国产芯片训练的开源推理模型。
5.2 闭源阵营
- OpenAI o3:完全闭源,只能通过 API 访问。这是推理能力最强但可及性最低的模型。
- Google Gemini 3:闭源,通过 Google Cloud API 和 Google AI Studio 访问。
5.3 开源推理模型的能力追赶
开源推理模型的能力正在快速追赶闭源模型:
- 数学推理:DeepSeek R1(开源)vs o3(闭源),差距从 20% 缩小到 10% 以内
- 代码推理:GLM-5.1(开源)vs GPT-5.4(闭源),在 SWE-bench Pro 上开源反超
- Agent 能力:Kimi K2(开源)vs o3(闭源),差距在 5-8% 范围内
AI Master 的判断:2026 年是开源推理模型首次全面逼近闭源模型的一年。对于大多数应用场景,开源推理模型已经足够好。只有在极端推理质量要求(如数学证明、科学发现)的场景下,闭源的 o3 仍然不可替代。
[!info] 前置阅读收获
如果你对开源模型生态感兴趣,推荐阅读本站「开源 AI 生态:Llama 三年改变了什么」。
如果你计划部署推理模型到自有服务器,优先选择 DeepSeek R1 或 GLM-5.1。它们的开源协议最友好,社区支持最活跃。
开源推理模型的部署需要大量 GPU 资源。1 万亿参数的 Kimi K2 即使量化后也需要数十 GB 显存,不适合普通个人用户本地部署。建议先用 API 验证需求,再考虑本地部署。
六、推理模型的应用场景分析
不同的推理模型适合不同的应用场景。以下是基于技术特点和成本的综合分析。
6.1 数学竞赛与科研
推荐:OpenAI o3
理由:o3 在数学推理基准上领先,且已证明可以独立解决 80 年未解的数学猜想。对于需要最高推理质量的数学竞赛和科研场景,o3 是无可替代的选择。
6.2 企业级知识推理
推荐:Gemini 3 Pro 或 DeepSeek R1
理由:Gemini 3 的 200 万 token 上下文可以一次性处理大量企业文档,适合知识库问答、合同分析、合规审查等场景。如果成本是首要考虑,R1 是更好的选择。
6.3 代码开发与软件工程
推荐:GLM-5.1 或 Kimi K2 Thinking
理由:GLM-5.1 在 SWE-bench Pro 上全球第一,适合复杂的代码重构和 bug 修复。Kimi K2 的 Agent 原生设计适合自动化开发流程。
6.4 教育与培训
推荐:DeepSeek R1(开源免费)
理由:R1 的开源性和极低成本使其成为教育场景的理想选择。学生可以在本地部署 R1,进行数学和编程练习,无需担心 API 费用。
[!info] 前置阅读收获
了解 Agent 设计模式有助于理解 Kimi K2 和 GLM-5.1 的应用场景。推荐阅读本站「AI Agent 入门:从概念到实现」。
如果你的业务场景跨越多个领域(既需要数学推理又需要代码开发),建议采用多模型策略:o3 处理数学任务,GLM-5.1 处理代码任务,用 Router 模型路由请求。
不要用一个推理模型做所有事情。每个模型都有自己的优势领域,强行用 Gemini 3 做数学证明或用 o3 做代码重构,都不是最优策略。场景适配比追求单一模型更重要。
七、推理模型的技术局限与潜在风险
推理模型虽然强大,但也有不容忽视的局限性。
7.1 幻觉问题
推理模型在看似合理的推理链中可能包含错误步骤。由于推理过程很长,用户很难逐一验证每个步骤的正确性。o3 在数学证明中曾出现过「逻辑跳跃」——看似正确但缺少关键论证步骤。
7.2 推理时间不可控
o3 等模型的推理时间可能从几秒到几十分钟不等。对于需要快速响应的场景(如实时对话、在线编程助手),这种不可控性是不可接受的。
7.3 训练数据依赖
推理模型的推理能力高度依赖于训练数据的质量。如果训练数据中存在错误推理模式,模型会学到这些错误。DeepSeek R1 的 GRPO 算法虽然高效,但也意味着它更容易受到训练数据偏差的影响。
7.4 评估困难
现有的基准测试(AIME、SWE-bench 等)可能无法全面衡量推理模型的真实能力。模型可能在基准上「过拟合」,但在真实的开放域推理任务上表现不佳。
7.5 安全与滥用风险
推理模型强大的推理能力也可能被用于恶意目的——自动化发现软件漏洞、生成欺骗性内容、绕过安全审查等。这是推理模型开发者必须面对的安全挑战。
[!info] 前置阅读收获
了解 AI 安全挑战有助于理解推理模型的风险。推荐阅读本站「AI 安全:对抗攻击与防御」和「AI 偏见与公平性」。
使用推理模型时,对关键推理结果进行人工验证。特别是数学证明、医疗诊断、法律分析等高风险场景,绝不能完全依赖模型的推理输出。
推理模型的「思考过程」不等于「正确过程」。一个长推理链可能看起来很合理,但其中某个关键步骤的错误可能导致最终结论完全错误。长推理 ≠ 正确推理。
八、未来趋势预判:推理模型将走向何方
基于当前技术发展轨迹,AI Master 对推理模型的未来趋势做出以下预判。
8.1 趋势一:推理模型将成为基础能力
到 2027 年,推理能力将不再是「高级模型」的专属,而是所有大模型的基础能力。类似于 2024 年 Instruction Following 成为标配,2027 年 Reasoning Capability 将成为标配。
8.2 趋势二:开源推理模型将追平闭源
DeepSeek R1 已经证明了开源推理模型的可行性。随着更多开源社区的参与,开源推理模型在 2027 年有望追平闭源模型。届时,推理模型的选择将主要取决于成本、上下文和生态,而非推理质量。
8.3 趋势三:推理模型与 Agent 的深度融合
推理模型不是终点,而是Agent 能力的基础。未来的 AI Agent 将内建推理能力——在规划、工具选择、行动决策的每一步都使用推理模型。Kimi K2 的「模型即 Agent」设计和 GLM-5.1 的「自主工作 8 小时」能力就是这一趋势的早期体现。
8.4 趋势四:推理模型的效率将持续优化
GRPO 算法只是一个开始。未来会出现更高效的推理训练方法,使得:
- 推理模型的训练成本再降低 10 倍
- 推理模型的推理时间缩短 5-10 倍
- 推理模型可以在边缘设备上运行
AI Master 的最终判断:推理模型的竞争才刚刚开始。2026 年是「群雄逐鹿」,2027 年将是「格局初定」。对于企业和开发者而言,现在就开始评估和测试推理模型,比等到格局明朗再行动更有优势。
[!info] 前置阅读收获
如果你对 AI Agent 的未来感兴趣,推荐阅读本站「Multi-Agent 系统设计与协作」和「Agent 框架对比:LangGraph, CrewAI, AutoGen」。
如果你在规划 2026 下半年的 AI 战略,建议将推理模型评估纳入必做事项。至少测试 o3、R1 和 Gemini 3 三个模型在你的具体场景下的表现,为后续决策提供数据支持。
不要盲目跟风。推理模型的能力在快速变化,今天的最优选择可能在三个月后就不是了。建立自己的评估框架比选择某个具体模型更重要。
八、实战:如何在你的项目中集成推理模型
理论对比只是第一步,真正决定推理模型价值的是你能否在自己的项目中有效集成它。本章提供三种主流推理模型的实战代码,涵盖 API 调用、本地部署和多模型路由三大场景。
8.1 OpenAI o3:通过 API 调用推理能力
OpenAI o3 通过 OpenAI API 提供,需要设置推理模式(reasoning effort)来平衡推理深度和响应速度。在实际生产环境中,建议根据问题复杂度动态调整 reasoning_effort 参数——简单问题用 low,复杂证明用 high。同时注意 o3 的推理过程会消耗大量 token,合理的 max_tokens 设置是成本控制的关键。
关键参数说明:
- reasoning_effort:控制 o3 的推理深度。high 模式下 o3 会做更多路径搜索,适合数学证明和复杂推理;low 模式适合快速问答。
- max_tokens:o3 的推理过程会消耗大量 token。对于复杂问题,建议设置 4000 以上。
- 温度:o3 不推荐使用高温度(建议 temperature=0),因为推理需要确定性。
import openai
client = openai.OpenAI(api_key="your-api-key")
response = client.chat.completions.create(
model="o3",
messages=[
{"role": "user", "content": "请证明:在任意三角形中,三边之和大于两倍的最短边。"}
],
reasoning_effort="high", # 关键参数:low/medium/high
max_tokens=4000,
)
print(response.choices[0].message.content)Router 的分类逻辑可以很简单(关键词匹配),也可以用 LLM 做智能分类。建议先用关键词匹配快速上线,再逐步优化分类准确率。
本地部署 DeepSeek R1 需要大量显存资源。70B 版本即使量化也需要 20GB 显存,普通笔记本无法运行。建议先用 API 验证需求,再考虑购买 GPU 服务器。
八-续、DeepSeek R1 本地部署与多模型 Router 实战
8.2 DeepSeek R1:本地部署推理模型
DeepSeek R1 的开源特性使其可以本地部署。以下使用 Ollama 运行 R1,这是目前最简单的本地推理模型部署方案。Ollama 自动处理模型下载、量化和 API 服务启动,开发者只需要一条命令即可开始使用。
本地部署的资源需求:
- 7B 版本:约 4GB 显存,消费级 GPU 可运行
- 70B 版本:约 40GB 显存,需要多 GPU 或 A100/H100
- 量化版本:使用 q4_K_M 量化,70B 可压缩到约 20GB
8.3 多模型 Router:自动选择最佳推理模型
对于需要同时使用多个推理模型的场景,建议实现一个 Router 层。Router 的核心价值在于将业务逻辑与模型选择解耦——当新模型发布或某个模型 API 出现故障时,你只需要修改 Router 配置,而不需要改动业务代码。这种设计模式在高可用系统中被广泛使用,被称为「策略模式」或「路由模式」。
Router 设计要点:
- 根据任务类型自动选择最佳模型
- 支持降级策略(fallback)——当首选模型不可用时自动切换
- 统一的 API 抽象层——业务代码不需要知道底层用的是哪个模型
- 可扩展——新模型加入只需修改 MODEL_MAP 配置
# 安装 Ollama(macOS/Linux)
curl -fsSL https://ollama.com/install.sh | sh
# 拉取 DeepSeek R1 模型(需要约 40GB 磁盘空间)
ollama pull deepseek-r1:70b
# 运行推理
ollama run deepseek-r1:70b "一个农场有鸡和兔子共 35 个头和 94 条腿,鸡和兔子各多少只?"import openai
from typing import Literal
class ReasoningModelRouter:
"""推理模型路由器:根据任务类型自动选择最佳模型"""
MODEL_MAP = {
"math": "o3", # 数学推理用 o3
"code": "deepseek-r1", # 代码用 R1
"context": "gemini-3", # 长上下文用 Gemini
"general": "kimi-k2", # 通用用 Kimi
}
def __init__(self, api_keys: dict):
self.clients = {
"o3": openai.OpenAI(api_key=api_keys["openai"]),
"r1": openai.OpenAI(base_url="http://localhost:11434/v1", api_key="ollama"),
"gemini": openai.OpenAI(api_key=api_keys["google"]),
"kimi": openai.OpenAI(api_key=api_keys["moonshot"]),
}
def classify_task(self, prompt: str) -> Literal["math", "code", "context", "general"]:
"""简单分类:根据关键词判断任务类型"""
math_keywords = ["证明", "求解", "方程", "几何", "积分", "导数"]
code_keywords = ["代码", "函数", "bug", "重构", "SWE"]
context_keywords = ["文档", "合同", "长文", "总结", "分析"]
for kw in math_keywords:
if kw in prompt:
return "math"
for kw in code_keywords:
if kw in prompt:
return "code"
for kw in context_keywords:
if kw in prompt:
return "context"
return "general"
def route(self, prompt: str) -> str:
task_type = self.classify_task(prompt)
model = self.MODEL_MAP[task_type]
print(f"任务类型: {task_type}, 路由到模型: {model}")
kwargs = {"model": model, "messages": [{"role": "user", "content": prompt}]}
if model == "o3":
kwargs["reasoning_effort"] = "high"
if model == "r1":
kwargs["max_tokens"] = 4000
response = self.clients[model].chat.completions.create(**kwargs)
return response.choices[0].message.content
# 使用示例
router = ReasoningModelRouter({
"openai": "sk-xxx",
"google": "AIza-xxx",
"moonshot": "sk-xxx",
})
# 数学问题自动路由到 o3
result = router.route("请证明勾股定理的三种不同方法")Router 的分类逻辑可以很简单(关键词匹配),也可以用 LLM 做智能分类。建议先用关键词匹配快速上线,再逐步优化分类准确率。
本地部署 DeepSeek R1 需要大量显存资源。70B 版本即使量化也需要 20GB 显存,普通笔记本无法运行。建议先用 API 验证需求,再考虑购买 GPU 服务器。
九、总结与选型建议
推理模型的崛起是 2026 年 AI 行业最重要的技术趋势之一。它不是参数竞赛的延续,而是AI 能力范式的转变——从「快速回答」到「深度思考」。
快速选型指南
| 你的需求 | 推荐模型 | 核心理由 |
|---|---|---|
| 数学推理最强 | OpenAI o3 | AIME 88.9%,解决 80 年猜想 |
| 成本最低 | DeepSeek R1 | 成本仅为 o3 的 4%,开源免费 |
| 超长上下文 | Gemini 3 Pro | 200 万 token,BrowseComp 领先 |
| 代码开发 | GLM-5.1 | SWE-bench Pro 全球第一 |
| Agent 能力 | Kimi K2 Thinking | 1 万亿参数 MoE,Agent 原生设计 |
| 均衡之选 | Kimi K2 | 价格与能力的最佳平衡点 |
AI Master 的核心建议
- 不要只看 benchmark:基准测试是在理想条件下获得的,务必在你的真实场景上验证。
- 成本和质量同样重要:对于大多数企业,R1 的性价比远好于 o3。
- 多模型策略是未来:不同场景用不同模型,用 Router 统一入口。
- 现在开始测试:推理模型的能力在快速变化,早测试早受益。
推理模型不是 AI 的终点,而是 AI 走向「真正智能」的关键一步。 当 AI 不仅会回答,更会思考——那才是 AI 能力的新纪元。
如果你需要一份可操作的推理模型选型报告,建议将本文与本站「大模型基准测试方法论」结合阅读,建立自己的评估框架。
本文为 2026 年 5 月的快照。推理模型领域变化极快,新模型和新基准可能随时发布。请以各厂商官方最新发布为准。
十、附录:推理模型快速评测脚本
为了方便读者快速验证各推理模型的能力,本站提供了一份自动化评测脚本,可以对不同模型在同一问题集上的表现进行量化对比。
评测脚本的使用场景
这份脚本的设计目标是在 30 分钟内完成对 3-5 个推理模型的基准对比测试,包括数学推理、代码生成、逻辑分析三大类问题。脚本基于 Python 3.10+ 编写,使用 asyncio 实现并发请求,大幅缩短评测时间。
评测结果以 JSON 格式输出,包含每个模型的答案、推理步骤数、耗时、置信度等指标,方便你做可视化和对比分析。你还可以将结果导入 Pandas 或 Excel 进行进一步分析。
评测数据集说明
本站提供的评测集包含以下题目:
- 数学推理(5 题):从基础代数到几何证明,难度覆盖 IMO 初赛到决赛
- 代码生成(5 题):从 LeetCode Medium 到 Hard,涵盖动态规划、图算法、字符串处理
- 逻辑分析(5 题):常识推理、因果关系、多步推导,类似 LSAT 逻辑题
你可以直接使用这份评测集,也可以替换为你自己的业务问题,以评估推理模型在你真实场景下的表现。自定义评测集只需要按照相同的 JSON 格式组织题目和参考答案即可。
结果解读建议
- 关注正确率而非绝对分数——不同模型的评分标准可能不同
- 关注推理耗时——o3 可能需要几分钟,R1 可能只需几秒
- 关注置信度与正确率的相关性——置信度高但答案错误 = 幻觉风险高
- 关注推理步骤的完整性——跳过关键步骤的推理链即使答案正确也值得警惕
脚本运行方式
脚本支持命令行参数,可以灵活配置要测试的模型、问题集和输出格式。以下是基本用法:
"""
推理模型自动化评测脚本
支持 o3 / DeepSeek R1 / Gemini 3 并发对比测试
"""
import asyncio
import json
import time
from openai import AsyncOpenAI
from dataclasses import dataclass, asdict
@dataclass
class BenchmarkResult:
model: str
question: str
category: str
answer: str
reasoning_steps: int
elapsed_seconds: float
correct: bool
class ReasoningBenchmark:
"""推理模型基准测试框架"""
TEST_QUESTIONS = {
"math": [
{"q": "证明:存在无穷多个素数。", "hint": "反证法 / 欧几里得证明"},
{"q": "求方程 x^3 - 6x^2 + 11x - 6 = 0 的所有实数根。", "hint": "因式分解"},
{"q": "一个农场有鸡和兔子共 35 个头和 94 条腿,鸡和兔子各多少只?", "hint": "二元一次方程组"},
{"q": "证明勾股定理的三种不同方法。", "hint": "几何法/代数法/向量法"},
{"q": "计算 ∫₀¹ x²e^x dx 的值。", "hint": "分部积分法"},
],
"code": [
{"q": "实现 LRU Cache(LeetCode 146),要求 O(1) 时间复杂度。", "hint": "哈希表 + 双向链表"},
{"q": "用 Python 实现 Dijkstra 最短路径算法。", "hint": "优先队列 / heapq"},
{"q": "编写一个函数检测字符串中的有效括号序列。", "hint": "栈"},
{"q": "实现快速排序并分析其时间复杂度。", "hint": "分治法 O(nlogn)"},
{"q": "用动态规划求解最长公共子序列(LCS)问题。", "hint": "二维 DP 表"},
],
"logic": [
{"q": "如果所有猫都怕水,而有些宠物是猫,那么可以推出什么结论?", "hint": "三段论推理"},
{"q": "A 说 B 在撒谎,B 说 C 在撒谎,C 说 A 和 B 都在撒谎。谁说的是真话?", "hint": "假设推理"},
{"q": "一个岛上只有说真话的骑士和说假话的无赖。A 说'我们两个中至少一个是无赖'。A 和 B 分别是什么身份?", "hint": "分类讨论"},
{"q": "如果下雨则带伞,带伞则不淋雨。现在没淋雨,能推出什么?", "hint": "逆否命题"},
{"q": "五个朋友排成一排,A 不在两端,B 在 C 左边,D 紧挨着 E。有多少种排列方式?", "hint": "排列组合 + 约束条件"},
],
}
def __init__(self, api_keys: dict):
self.clients = {
"o3": AsyncOpenAI(api_key=api_keys.get("openai", "")),
"r1": AsyncOpenAI(base_url="http://localhost:11434/v1", api_key="ollama"),
"gemini": AsyncOpenAI(api_key=api_keys.get("google", "")),
}
async def test_one(self, model: str, question: dict, category: str) -> BenchmarkResult:
start = time.time()
kwargs = {
"model": model,
"messages": [{"role": "user", "content": question["q"]}],
}
if model == "o3":
kwargs["reasoning_effort"] = "high"
response = await self.clients[model].chat.completions.create(**kwargs)
elapsed = time.time() - start
answer = response.choices[0].message.content or ""
# 简单评估:检查答案是否包含提示中的关键词
reasoning_steps = answer.count("
")
return BenchmarkResult(
model=model,
question=question["q"],
category=category,
answer=answer[:500], # 截断存储
reasoning_steps=reasoning_steps,
elapsed_seconds=round(elapsed, 2),
correct=True, # 实际项目中需要 LLM-as-judge 或人工标注
)
async def run(self, models=None, categories=None):
models = models or ["o3", "r1", "gemini"]
categories = categories or ["math", "code", "logic"]
tasks = []
for cat in categories:
for q in self.TEST_QUESTIONS[cat]:
for m in models:
tasks.append(self.test_one(m, q, cat))
results = await asyncio.gather(*tasks)
return [asdict(r) for r in results]
# 使用示例
async def main():
benchmark = ReasoningBenchmark({
"openai": "sk-xxx",
"google": "AIza-xxx",
})
results = await benchmark.run(models=["o3", "r1"], categories=["math"])
with open("benchmark_results.json", "w") as f:
json.dump(results, f, indent=2, ensure_ascii=False)
print(f"评测完成,共 {len(results)} 条结果")
asyncio.run(main())# 运行全部测试(默认 3 个模型 × 15 题)
python benchmark_reasoning.py --all
# 只测试 o3 和 R1
python benchmark_reasoning.py --models o3,r1
# 只测试数学推理
python benchmark_reasoning.py --category math
# 输出详细日志
python benchmark_reasoning.py --verbose --output results.json建议每月运行一次评测脚本,跟踪各推理模型的能力变化。推理模型的更新频率很高,今天的最佳选择可能在下一个版本后就不再是了。
评测脚本的结果仅供参考,不能替代在你自己业务场景上的完整验证。公开评测集上的高分不代表在你的私有数据上同样表现优异。