Episode(回合)

就是 AI 玩一局游戏,从开始到结束算一个回合,结束后重新开局再来一轮。

亦作、亦称:回合 · Trajectory · Rollout Episode · 轨迹 · 展开

回合(Episode)是强化学习中智能体与环境完成一次完整交互的基本单元,从初始状态开始,在终止状态结束。掌握回合的概念是理解情节性强化学习算法(如 REINFORCE、PPO)的前提。

概述

回合是强化学习的基本时间单元,用于描述一次完整的交互序列。

  • 初始状态 s₀:每条回合从环境重置后的起点采样
  • 终止状态 sₜ:触发条件包括目标达成、失败、超时等
  • 回合长度 T:可固定(如 1000 步)或由环境动态决定
  • 独立性:各回合之间相互独立,环境在每条回合结束后重置
  • 情节性任务示例:棋类博弈、Atari 游戏、机器人抓取任务

工作原理

一条完整回合的生成过程遵循马尔可夫决策过程(MDP)框架。

  • 环境调用 reset() 返回初始观测 s₀
  • 智能体根据策略 π 选择动作 aₜ = π(sₜ)
  • 环境执行动作,返回下一状态 sₜ₊₁ 和即时奖励 rₜ₊₁
  • 重复上述步骤,直到 done=True 时终止,形成完整轨迹 τ
  • 回合累积奖励(Return)为 G = Σ γᵏ rₜ₊ₖ,γ 为折扣因子

类型与变体

回合在不同场景下有多种形态。

  • 情节性回合(Episodic):存在明确终止状态,如游戏结束或任务失败
  • 截断回合(Truncated Episode):达到最大步数后人为截断,不等于真正终止
  • 部分回合(Partial Rollout):PPO 等算法收集固定步数的片段而非完整回合
  • 离线回合(Offline Episode):从历史数据中采样,不与真实环境交互
  • 多智能体回合(Multi-Agent Episode):所有智能体同步交互至共同终止

应用场景

回合机制广泛应用于各类强化学习实际场景。

  • 游戏 AI:Atari、围棋、DOTA2 等每局比赛天然对应一条回合
  • 机器人控制:抓取、行走等任务每次尝试为一条回合,失败后重置
  • 自动驾驶仿真:每次从随机场景出发到达目的地或发生碰撞为一条回合
  • 对话系统:一次完整对话(多轮交互)可建模为一条回合
  • 超参数搜索:每次训练运行视为一条高层回合

与持续性任务的区别

情节性任务与持续性任务在建模方式上存在本质差异。

  • 情节性任务:有终止状态,奖励可直接求和,适合 Monte Carlo 方法
  • 持续性任务:无终止状态(如推荐系统),必须引入折扣因子 γ < 1 保证收敛
  • Rollout 与 Episode 的关系:Rollout 强调「展开执行」过程,Episode 强调「完整回合」概念,二者通常指同一序列
  • 截断 vs 终止:Truncated(超时截断)≠ Terminated(真正结束),处理 Bootstrap 值时需区分

局限与误区

使用回合概念时有若干常见误区需要注意。

  • 误区一:将截断(Truncated)等同于终止(Done),导致价值估计出现边界偏差
  • 误区二:回合越长越好——过长回合会增加方差,不一定有利于学习
  • 误区三:混淆「回合」与「步(Step)」,一条回合包含多个时间步
  • 局限:现实世界中许多任务难以自然重置,情节化假设不总成立
  • 局限:稀疏奖励任务中,若回合内奖励极少,学习信号非常微弱

发展脉络

回合概念随强化学习的理论发展逐步成熟。

  • 1988年:Sutton 提出 TD(λ) 算法,明确区分情节性与持续性任务结构
  • 1992年:Williams 提出 REINFORCE,以完整回合的 Return 估计策略梯度
  • 1998年:Sutton & Barto《RL: An Introduction》第一版系统定义回合与情节性 MDP
  • 2013年:Mnih 等提出 DQN,使用经验回放缓冲存储回合转移数据
  • 2017年:PPO 引入「部分 Rollout」概念,不再要求收集完整回合再更新
  • 2018年:Gym(OpenAI)统一 done/truncated 接口规范,明确区分截断与终止

常见误解

日常交流中容易听到的简化说法,未必准确,但能帮助理解误解从何而来。

  • 「就是 AI 玩一局游戏,从开始到结束算一个回合,结束后重新开局再来一轮。」
  • 「回合就是智能体收集的一条完整经历,有头有尾,结束才算数。」
  • 「Rollout、Trajectory、Episode 基本是一回事,都是指一次完整的 Agent 经验序列。」

相关术语

和本术语关联紧密的其他词条,便于串联理解。

延伸阅读

从知识库精选 3 篇文章,帮助深入理解该术语。

  1. 1

    强化学习基础:从 Q-Learning 到 PPO

    强化学习系统入门。从马尔可夫决策过程出发,讲解 Q-Learning、Deep Q-Network、Policy Gradient 到 PPO 的完整技术路线,包含 CartPole 环境下的完整 Python 实现。

  2. 2

    策略梯度:REINFORCE 算法

    从值函数到策略函数,理解直接优化策略的强化学习方法

  3. 3

    AI 在自动驾驶中的应用

    从感知到决策规划,掌握 AI 在自动驾驶中的核心技术

外部参考

维基百科:查看「Episode」词条

本页内容为本站原创撰写;维基百科链接仅作延伸参考。