强化学习

目录

强化学习

1. 强化学习

2. 强化学习中的基础概念

3. 强化学习算法分类


学习目标:

①强化学习

②强化学习中的基础概念

③强化学习算法分类

1. 强化学习

强化学习RL机器学习中的一个领域,强调如何基于环境而行动,以取得最大化的预期利益(对正确的学习进行奖惩)

2. 强化学习中的基础概念

(1)两个对象:智能体;环境

(2)主要元素

Action,智能体根据状态做当前时刻的动作

Policy,根据状态做出决策,控制Agent做动作(概率密度函数)

Reward,环境基于当前动作给出的奖励(正向或负向)

Return,回报(所有时刻的奖励和)

3. 强化学习算法分类

强化学习算法根据寻找最优策略的过程可以分为两类:

(1)直接求解最优策略:在与环境的交互过程中,直接优化最优策略函数(Policy,比较困难)

基于策略求解

(2)间接求解最优策略:不直接解最优策略函数,而是通过间接求取其他指标(价值函数),根据这些指标的结果来推导最优策略

基于价值求解

现在用的比较广的是两者进行综合使用

Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐