强化学习-----＞轨迹、回报、折扣因子和回合

本文继续探讨强化学习的四个核心概念：轨迹描述智能体与环境交互的"状态-动作-奖励"序列；回报是未来奖励的累计值，用于评估策略；折扣因子γ∈(0,1)调节近期与远期奖励的权重，γ接近0更短视，接近1更远视；回合指智能体从开始到终止状态的完整交互过程，其轨迹可能因环境或策略的随机性而不同。这些概念共同构成了强化学习的基础框架。

一寸绿柚时光

443人浏览 · 2025-12-20 22:43:23

一寸绿柚时光 · 2025-12-20 22:43:23 发布

在上篇文章中，我们介绍了状态、动作、策略和奖励这几个基本概念。

本文将继续讨论强化学习中另外四个重要概念：轨迹、回报、折扣因子和回合。

轨迹（Trajectory）

轨迹描述了智能体与环境交互过程中经历的状态、动作和奖励序列，通常表示为：

s0,a0,r1,s1,a1,r2,s2,…

这是一个按时间顺序排列的“状态-动作-奖励”链。

回报（Return）

回报是指从某一时刻开始，轨迹上未来所有奖励的累积值，也称为累计奖励。

例如，某轨迹获得的奖励依次为 0, 0, 0, 1，则其回报为 0+0+0+1=1。

回报常被用来评估策略的好坏。需要注意的是，策略本身通常是一个概率分布，而非确定性的动作选择。

折扣因子（Discount Factor）

在计算回报时，如果直接对远期奖励进行简单累加，可能导致回报无限增长，不利于学习稳定。为此，我们引入折扣因子 γ∈(0,1)，并定义折扣回报为：

Gt=rt+1+γrt+2+γ2rt+3+…

例如，对应某轨迹的折扣回报可写作 0+0⋅γ+0⋅γ2+1⋅γ3+…。

折扣因子 γ的作用是调节智能体对近期奖励与远期奖励的重视程度：

若 γ接近 0，智能体更关注近期奖励，策略会趋于“短视”；
若 γ接近 1，智能体更重视远期奖励，策略会更为“远视”，甚至可能为长期收益接受短期的负奖励。

回合（Episode）

当智能体根据某个策略与环境交互，并在达到某个终止状态时结束，这个过程称为一个回合（或一次试验）。

如果环境或策略具有随机性，即使从同一初始状态出发，也可能得到不同的回合轨迹；反之，在完全确定性的环境中，每次从同一状态出发都将得到完全相同的回合。

火山引擎 ADG 社区

火山引擎开发者社区是火山引擎打造的AI技术生态平台，聚焦Agent与大模型开发，提供豆包系列模型（图像/视频/视觉）、智能分析与会话工具，并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长，新用户可领50万Tokens权益，助力构建智能应用。

更多推荐

OpenClaw 本地部署完整指南（Windows + Ollama）

本文档基于实际部署经验编写，旨在帮助你在 Windows 系统上从零开始搭建 OpenClaw，并连接本地 Ollama 模型（如 Qwen2.5 或 Qwen3），使其具备完整的智能体能力。文档包含了所有关键步骤以及常见问题的解决方案。

火山引擎 ADG 社区

OpenClaw 小白安装指南（Windows版）

（类似一个能自动执行任务的AI机器人），不是游戏。API Key只保存在你本地电脑的加密文件里，不会上传到任何地方。访问：https://github.com/miaoxworld/openclaw-manager/releases。: 一键安装脚本会自动安装Node.js 22+，如果失败，手动下载安装：https://nodejs.org/：在PowerShell中，鼠标右键就是粘贴，不需要按

火山引擎 ADG 社区

飞书 × OpenClaw 接入指南：不用服务器，用长连接把机器人跑起来

这个项目存在的意义，就是把“飞书接 OpenClaw”这件事，整理成一套的配置入口，并把官方文档没覆盖到的坑集中写成排查清单。先说清楚它的角色：OpenClaw 现在已经内置官方飞书插件 @openclaw/feishu，功能更完整、维护也更及时。，说明飞书 + AI 的接入已经走通。另外，仓库也推荐了一个新项目：把 OpenClaw 变成“多 Agent 团队”，用多个 Agent 分工，Sla