强化学习中状态和奖励

乱世军军

265人浏览 · 2025-11-20 16:35:39

乱世军军 · 2025-11-20 16:35:39 发布

核心结论：状态是智能体 “当下所处的情境”，奖励是环境对智能体 “刚才行为” 的即时反馈信号，两者共同指导智能体学习最优行为。

1. 什么是状态（State）

是对 “当前环境情况” 的完整描述，能让智能体知道 “自己现在在哪、面临什么”。
例子：玩游戏时，屏幕上的角色位置、敌人分布、剩余血量，合起来就是一个状态；机器人导航时，自身坐标、周围障碍物位置，也是状态。
核心作用：帮智能体判断 “当下该基于什么信息做决策”。

2. 什么是奖励（Reward）

是环境给智能体的 “即时打分”，只针对智能体上一步的行为给出反馈。
例子：游戏中吃到金币得 10 分（正奖励）、撞到敌人扣 20 分（负奖励）、没任何动作得 0 分（无奖励）；机器人成功到达目标点得 50 分（正奖励），碰到障碍物扣 30 分（负奖励）。
核心作用：告诉智能体 “刚才的行为好不好”，引导它往多拿正奖励、少拿负奖励的方向调整行为。

3. 两者的核心关联

智能体先观察 “状态”，基于状态做出行为；
行为之后，环境会更新状态（比如角色移动到新位置），并给出 “奖励”；
智能体通过 “状态→行为→奖励” 的循环，学习 “在什么状态下该做什么行为，才能累计更多总奖励”。

智能体开发者社区

中国智能体开发者社区，聚焦智能体与大模型开发，提供前沿资讯、实用工具链、开源项目及行业案例。通过技术沙龙、开发者大赛等活动，促进经验交流与协作，助力开发者快速构建创新智能应用。

更多推荐

cover

从 GPT-1 到 ChatGPT，再到现代 LLM：一文吃透大语言模型 7 年进化史

智能体开发者社区

cover

AI多Agent协作系统实战（七）：通知到了却不行动——AI Agent的行为缺陷与即时复核链路

智能体开发者社区

cover

SkillScan：字节团队面向 AI Agent Skills 的全链路安全检测方案

智能体开发者社区

所有评论(0)

查看更多评论

乱世军军

@weixin_40844944

已为社区贡献3条内容