Return（累积奖励回报）

就是把未来拿到的所有分数加起来，只是越远的分打个折扣，让 AI 更重视眼前奖励

亦作、亦称：累积奖励回报 · Cumulative Reward · Discounted Return · Gt · 回报 · 折扣累积奖励

Return（累积奖励回报）是强化学习中衡量智能体长期表现的核心量，将未来所有奖励以折扣因子加权求和，驱动策略朝最大化长期收益的方向优化。

概述

Return 是强化学习的核心优化目标，表示智能体在一条轨迹上所能累积的总奖励。

Return（Gt）定义为从时刻 t 开始所有后续奖励的加权和
区别于单步奖励 Rt，Return 衡量的是长期收益
强化学习的目标可统一表述为：最大化期望回报 E[Gt]
折扣因子 γ（0 ≤ γ ≤ 1）控制远期奖励的权重衰减
Return 是价值函数（V、Q）和策略梯度估计的共同基础

工作原理

Return 通过递归关系将即时奖励与未来期望联系起来。

公式：Gt = Rt+1 + γ·Rt+2 + γ²·Rt+3 + … = Σ(k=0→∞) γᵏ·Rt+k+1
递推形式：Gt = Rt+1 + γ·Gt+1，这是 Bellman 方程 的基础
分幕式任务（Episodic）：在终止时刻 T 截断，Gt = Rt+1 + … + RT
持续型任务（Continuing）：需 γ<1 以保证级数收敛为有限值
γ=0 时智能体只关注即时奖励；γ→1 时具备更强的长远规划能力

类型与变体

根据任务类型和算法需求，Return 有多种常见形式。

无折扣回报（γ=1）：适用于有限步骤的分幕式任务，如棋类游戏
折扣回报（γ<1）：适用于无限时域或连续型任务，防止发散
平均奖励回报：用于长期平均性能评估，不引入折扣因子
蒙特卡洛 Return 估计：沿完整轨迹采样，得到无偏但高方差的 Gt 估计
TD 目标（n 步 Return）：混合即时奖励与引导估计，平衡偏差与方差

应用场景

Return 的估计与优化贯穿各类强化学习算法与实际系统。

策略梯度（REINFORCE）：直接用蒙特卡洛 Return 估计梯度，更新策略参数
Actor-Critic（A2C/A3C）：Critic 学习价值函数，Actor 用 Return 减去基线降低方差
Q-Learning / DQN：Q 函数近似最优期望折扣 Return，驱动动作选择
游戏 AI：AlphaGo、AlphaZero 等以长期累计得分（Return）为优化目标
机器人控制：折扣 Return 使机器人权衡任务完成时间与能量消耗

与即时奖励的区别

Return 与单步奖励在概念层次和算法作用上有本质区别。

即时奖励 Rt：环境对单步动作的反馈信号，可能稀疏或噪声大
Return Gt：从 t 步起的全局累计量，代表长期后果
仅优化即时奖励会导致短视策略，无法完成需要延迟满足的任务
Return 通过折扣将远期影响纳入当前决策，体现时间偏好
价值函数 V(s) 和 Q(s,a) 本质上是 Return 在策略下的期望

局限与误区

Return 的计算与估计存在若干常见误区和实践挑战。

误区：将 Return 等同于即时奖励，忽略时序累积效应
高方差问题：蒙特卡洛 Return 估计需完整轨迹，方差大，样本效率低
折扣因子选择：γ 过小导致短视；γ 过大在持续型任务中可能不收敛
奖励稀疏性：Return 长期为零时，梯度信号极弱，难以学习
分布偏移：离线数据估计 Return 时，行为策略与目标策略不一致导致偏差

发展脉络

Return 概念随强化学习理论发展不断深化。

1957 年：Richard Bellman 在动态规划中提出「最优回报函数」，奠定数学基础
1988 年：Sutton 提出 TD(λ) 算法，用 λ-Return 统一蒙特卡洛与 TD 估计
1992 年：Watkins 提出 Q-Learning，以折扣 Return 为优化目标
1998 年：Sutton & Barto《Reinforcement Learning: An Introduction》系统化 Return 理论
2013-2015 年：DQN（DeepMind）将折扣 Return 与深度网络结合，突破 Atari 游戏
2017 年至今：PPO、SAC 等现代算法持续改进 Return 估计的方差控制与样本效率

常见误解

日常交流中容易听到的简化说法，未必准确，但能帮助理解误解从何而来。

「就是把未来拿到的所有分数加起来，只是越远的分打个折扣，让 AI 更重视眼前奖励」
「Return 不等于单步奖励，它是一整条轨迹的'总得分'，折扣因子决定 AI 是否有长远眼光」
「很多人以为回报就是即时奖励，其实 Return 是从当前步到结束的加权累计，是 Q 值和 V 值的核心来源」

相关术语

和本术语关联紧密的其他词条，便于串联理解。

延伸阅读

从知识库精选 3 篇文章，帮助深入理解该术语。

外部参考

维基百科：查看「Return」词条

本页内容为本站原创撰写；维基百科链接仅作延伸参考。