Episode（回合）

就是 AI 玩一局游戏，从开始到结束算一个回合，结束后重新开局再来一轮。

亦作、亦称：回合 · Trajectory · Rollout Episode · 轨迹 · 展开

回合（Episode）是强化学习中智能体与环境完成一次完整交互的基本单元，从初始状态开始，在终止状态结束。掌握回合的概念是理解情节性强化学习算法（如 REINFORCE、PPO）的前提。

概述

回合是强化学习的基本时间单元，用于描述一次完整的交互序列。

初始状态 s₀：每条回合从环境重置后的起点采样
终止状态 sₜ：触发条件包括目标达成、失败、超时等
回合长度 T：可固定（如 1000 步）或由环境动态决定
独立性：各回合之间相互独立，环境在每条回合结束后重置
情节性任务示例：棋类博弈、Atari 游戏、机器人抓取任务

工作原理

一条完整回合的生成过程遵循马尔可夫决策过程（MDP）框架。

环境调用 reset() 返回初始观测 s₀
智能体根据策略 π 选择动作 aₜ = π(sₜ)
环境执行动作，返回下一状态 sₜ₊₁ 和即时奖励 rₜ₊₁
重复上述步骤，直到 done=True 时终止，形成完整轨迹 τ
回合累积奖励（Return）为 G = Σ γᵏ rₜ₊ₖ，γ 为折扣因子

类型与变体

回合在不同场景下有多种形态。

情节性回合（Episodic）：存在明确终止状态，如游戏结束或任务失败
截断回合（Truncated Episode）：达到最大步数后人为截断，不等于真正终止
部分回合（Partial Rollout）：PPO 等算法收集固定步数的片段而非完整回合
离线回合（Offline Episode）：从历史数据中采样，不与真实环境交互
多智能体回合（Multi-Agent Episode）：所有智能体同步交互至共同终止

应用场景

回合机制广泛应用于各类强化学习实际场景。

游戏 AI：Atari、围棋、DOTA2 等每局比赛天然对应一条回合
机器人控制：抓取、行走等任务每次尝试为一条回合，失败后重置
自动驾驶仿真：每次从随机场景出发到达目的地或发生碰撞为一条回合
对话系统：一次完整对话（多轮交互）可建模为一条回合
超参数搜索：每次训练运行视为一条高层回合

与持续性任务的区别

情节性任务与持续性任务在建模方式上存在本质差异。

情节性任务：有终止状态，奖励可直接求和，适合 Monte Carlo 方法
持续性任务：无终止状态（如推荐系统），必须引入折扣因子 γ < 1 保证收敛
Rollout 与 Episode 的关系：Rollout 强调「展开执行」过程，Episode 强调「完整回合」概念，二者通常指同一序列
截断 vs 终止：Truncated（超时截断）≠ Terminated（真正结束），处理 Bootstrap 值时需区分

局限与误区

使用回合概念时有若干常见误区需要注意。

误区一：将截断（Truncated）等同于终止（Done），导致价值估计出现边界偏差
误区二：回合越长越好——过长回合会增加方差，不一定有利于学习
误区三：混淆「回合」与「步（Step）」，一条回合包含多个时间步
局限：现实世界中许多任务难以自然重置，情节化假设不总成立
局限：稀疏奖励任务中，若回合内奖励极少，学习信号非常微弱

发展脉络

回合概念随强化学习的理论发展逐步成熟。

1988年：Sutton 提出 TD(λ) 算法，明确区分情节性与持续性任务结构
1992年：Williams 提出 REINFORCE，以完整回合的 Return 估计策略梯度
1998年：Sutton & Barto《RL: An Introduction》第一版系统定义回合与情节性 MDP
2013年：Mnih 等提出 DQN，使用经验回放缓冲存储回合转移数据
2017年：PPO 引入「部分 Rollout」概念，不再要求收集完整回合再更新
2018年：Gym（OpenAI）统一 done/truncated 接口规范，明确区分截断与终止

常见误解

日常交流中容易听到的简化说法，未必准确，但能帮助理解误解从何而来。

「就是 AI 玩一局游戏，从开始到结束算一个回合，结束后重新开局再来一轮。」
「回合就是智能体收集的一条完整经历，有头有尾，结束才算数。」
「Rollout、Trajectory、Episode 基本是一回事，都是指一次完整的 Agent 经验序列。」

相关术语

和本术语关联紧密的其他词条，便于串联理解。

延伸阅读

从知识库精选 3 篇文章，帮助深入理解该术语。

外部参考

维基百科：查看「Episode」词条

本页内容为本站原创撰写；维基百科链接仅作延伸参考。