强化学习 中状态和奖励
是对 “当前环境情况” 的完整描述,能让智能体知道 “自己现在在哪、面临什么”。例子:玩游戏时,屏幕上的角色位置、敌人分布、剩余血量,合起来就是一个状态;机器人导航时,自身坐标、周围障碍物位置,也是状态。核心作用:帮智能体判断 “当下该基于什么信息做决策”。是环境给智能体的 “即时打分”,只针对智能体上一步的行为给出反馈。例子:游戏中吃到金币得 10 分(正奖励)、撞到敌人扣 20 分(负奖励)、
·
核心结论:状态是智能体 “当下所处的情境”,奖励是环境对智能体 “刚才行为” 的即时反馈信号,两者共同指导智能体学习最优行为。
1. 什么是状态(State)
- 是对 “当前环境情况” 的完整描述,能让智能体知道 “自己现在在哪、面临什么”。
- 例子:玩游戏时,屏幕上的角色位置、敌人分布、剩余血量,合起来就是一个状态;机器人导航时,自身坐标、周围障碍物位置,也是状态。
- 核心作用:帮智能体判断 “当下该基于什么信息做决策”。
2. 什么是奖励(Reward)
- 是环境给智能体的 “即时打分”,只针对智能体上一步的行为给出反馈。
- 例子:游戏中吃到金币得 10 分(正奖励)、撞到敌人扣 20 分(负奖励)、没任何动作得 0 分(无奖励);机器人成功到达目标点得 50 分(正奖励),碰到障碍物扣 30 分(负奖励)。
- 核心作用:告诉智能体 “刚才的行为好不好”,引导它往多拿正奖励、少拿负奖励的方向调整行为。
3. 两者的核心关联
- 智能体先观察 “状态”,基于状态做出行为;
- 行为之后,环境会更新状态(比如角色移动到新位置),并给出 “奖励”;
- 智能体通过 “状态→行为→奖励” 的循环,学习 “在什么状态下该做什么行为,才能累计更多总奖励”。
火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。
更多推荐
所有评论(0)