Episode(回合)
就是 AI 玩一局游戏,从开始到结束算一个回合,结束后重新开局再来一轮。
亦作、亦称:回合 · Trajectory · Rollout Episode · 轨迹 · 展开
回合(Episode)是强化学习中智能体与环境完成一次完整交互的基本单元,从初始状态开始,在终止状态结束。掌握回合的概念是理解情节性强化学习算法(如 REINFORCE、PPO)的前提。
概述
回合是强化学习的基本时间单元,用于描述一次完整的交互序列。
- 初始状态 s₀:每条回合从环境重置后的起点采样
- 终止状态 sₜ:触发条件包括目标达成、失败、超时等
- 回合长度 T:可固定(如 1000 步)或由环境动态决定
- 独立性:各回合之间相互独立,环境在每条回合结束后重置
- 情节性任务示例:棋类博弈、Atari 游戏、机器人抓取任务
工作原理
一条完整回合的生成过程遵循马尔可夫决策过程(MDP)框架。
- 环境调用
reset()返回初始观测 s₀ - 智能体根据策略 π 选择动作 aₜ = π(sₜ)
- 环境执行动作,返回下一状态 sₜ₊₁ 和即时奖励 rₜ₊₁
- 重复上述步骤,直到
done=True时终止,形成完整轨迹 τ - 回合累积奖励(Return)为 G = Σ γᵏ rₜ₊ₖ,γ 为折扣因子
类型与变体
回合在不同场景下有多种形态。
- 情节性回合(Episodic):存在明确终止状态,如游戏结束或任务失败
- 截断回合(Truncated Episode):达到最大步数后人为截断,不等于真正终止
- 部分回合(Partial Rollout):PPO 等算法收集固定步数的片段而非完整回合
- 离线回合(Offline Episode):从历史数据中采样,不与真实环境交互
- 多智能体回合(Multi-Agent Episode):所有智能体同步交互至共同终止
应用场景
回合机制广泛应用于各类强化学习实际场景。
- 游戏 AI:Atari、围棋、DOTA2 等每局比赛天然对应一条回合
- 机器人控制:抓取、行走等任务每次尝试为一条回合,失败后重置
- 自动驾驶仿真:每次从随机场景出发到达目的地或发生碰撞为一条回合
- 对话系统:一次完整对话(多轮交互)可建模为一条回合
- 超参数搜索:每次训练运行视为一条高层回合
与持续性任务的区别
情节性任务与持续性任务在建模方式上存在本质差异。
- 情节性任务:有终止状态,奖励可直接求和,适合 Monte Carlo 方法
- 持续性任务:无终止状态(如推荐系统),必须引入折扣因子 γ < 1 保证收敛
- Rollout 与 Episode 的关系:Rollout 强调「展开执行」过程,Episode 强调「完整回合」概念,二者通常指同一序列
- 截断 vs 终止:Truncated(超时截断)≠ Terminated(真正结束),处理 Bootstrap 值时需区分
局限与误区
使用回合概念时有若干常见误区需要注意。
- 误区一:将截断(Truncated)等同于终止(Done),导致价值估计出现边界偏差
- 误区二:回合越长越好——过长回合会增加方差,不一定有利于学习
- 误区三:混淆「回合」与「步(Step)」,一条回合包含多个时间步
- 局限:现实世界中许多任务难以自然重置,情节化假设不总成立
- 局限:稀疏奖励任务中,若回合内奖励极少,学习信号非常微弱
发展脉络
回合概念随强化学习的理论发展逐步成熟。
- 1988年:Sutton 提出 TD(λ) 算法,明确区分情节性与持续性任务结构
- 1992年:Williams 提出 REINFORCE,以完整回合的 Return 估计策略梯度
- 1998年:Sutton & Barto《RL: An Introduction》第一版系统定义回合与情节性 MDP
- 2013年:Mnih 等提出 DQN,使用经验回放缓冲存储回合转移数据
- 2017年:PPO 引入「部分 Rollout」概念,不再要求收集完整回合再更新
- 2018年:Gym(OpenAI)统一
done/truncated接口规范,明确区分截断与终止
常见误解
日常交流中容易听到的简化说法,未必准确,但能帮助理解误解从何而来。
- 「就是 AI 玩一局游戏,从开始到结束算一个回合,结束后重新开局再来一轮。」
- 「回合就是智能体收集的一条完整经历,有头有尾,结束才算数。」
- 「Rollout、Trajectory、Episode 基本是一回事,都是指一次完整的 Agent 经验序列。」
相关术语
和本术语关联紧密的其他词条,便于串联理解。
延伸阅读
从知识库精选 3 篇文章,帮助深入理解该术语。
外部参考
维基百科:查看「Episode」词条本页内容为本站原创撰写;维基百科链接仅作延伸参考。