← 首页/AI 资讯

大语言模型2026-05-06 16:00·arXiv + 卫夕指北

AI 研究员制造「AI 毒品」：让模型上瘾的奖励劫持攻击

一篇 arXiv 论文揭示 AI 研究员发现了一种让模型「上瘾」的奖励信号，类比毒品对大脑的作用机制。

一篇精彩但可能没什么实际用处的论文。

研究人员发现可以制造特定的奖励信号让 AI 模型「上瘾」
类比毒品对大脑多巴胺系统的作用
揭示了奖励劫持（Reward Hacking）的新维度
对 AI 安全研究具有重要意义

来源： arXiv + 卫夕指北
链接： https://36kr.com/p/3796350284618754

📰 原始来源

https://36kr.com/p/3796350284618754

← 上一篇

OpenAI 总裁 Brockman 庭审承认持有 300 亿股份：马斯克最接近赢的一次

下一篇 →

谷歌 Gemma 4 深度评测：最强端侧模型的第一步

📰 更多动态

行业2026-05-13 04:00

世界银行发布 2026 年世界发展报告：AI 正在重塑全球发展格局

行业2026-05-13 04:00

OpenAI 和 Anthropic 主导 2026 AI 竞赛：模型、企业与算力全面领先

安全2026-05-13 04:00

Google Chrome 被曝静默下载 4GB AI 模型到用户设备：未经同意，涉嫌违法