← 首页/AI 资讯

大语言模型2026-05-14 12:11·量子位 + OpenAI

OpenAI 研究员翁家翌提出强化学习新范式：不更新参数，AI 手搓 .py 文件即可决策

量子位报道，OpenAI 中国研究员翁家翌团队提出了一种不需要更新模型参数的强化学习方法，AI 通过自动生成 Python 脚本来做出决策，大幅降低训练成本。

强化学习不需要更新参数

2026 年 5 月 13 日，OpenAI 研究员翁家翌（Jiayu Weng）团队提出了一种全新的强化学习范式。

核心思路

传统方法：强化学习需要通过大量 trial-and-error 更新模型参数
新范式：固定模型参数不变，让 AI 自动生成 Python 决策脚本
优势：无需重新训练，零参数更新，推理速度快

应用场景

这种方法特别适合需要频繁调整策略但不希望重新训练模型的场景，如金融交易、机器人控制等。

行业影响

如果该方法能在更广泛的任务上验证其有效性，将大幅降低 AI 模型的训练成本和部署门槛。

来源： 量子位
链接： https://www.qbitai.com/

📰 原始来源

https://www.qbitai.com/

← 上一篇

字节跳动提出视觉生成第三种路线：挑战扩散+自回归，让模型像人类一样边画边改

下一篇 →

Anthropic 正式发布 Claude for Small Business：面向中小企业的专属 AI 服务

📰 更多动态

行业2026-05-13 04:00

世界银行发布 2026 年世界发展报告：AI 正在重塑全球发展格局

行业2026-05-13 04:00

OpenAI 和 Anthropic 主导 2026 AI 竞赛：模型、企业与算力全面领先

安全2026-05-13 04:00

Google Chrome 被曝静默下载 4GB AI 模型到用户设备：未经同意，涉嫌违法