【课程笔记】华为 HCIA-AI 人工智能50:强化学习
不直接解最优策略函数,而是通过间接求取其他指标(价值函数),根据这些指标的结果来推导最优策略。:在与环境的交互过程中,直接优化最优策略函数(Policy,比较困难)Policy,根据状态做出决策,控制Agent做动作(概率密度函数)中的一个领域,强调如何基于环境而行动,以取得最大化的预期利益(Reward,环境基于当前动作给出的奖励(正向或负向)Action,智能体根据状态做当前时刻的动作。Ret
·
强化学习
目录
学习目标:
①强化学习
②强化学习中的基础概念
③强化学习算法分类
1. 强化学习
强化学习RL是机器学习中的一个领域,强调如何基于环境而行动,以取得最大化的预期利益(对正确的学习进行奖惩)
2. 强化学习中的基础概念
(1)两个对象:智能体;环境
(2)主要元素:
Action,智能体根据状态做当前时刻的动作
Policy,根据状态做出决策,控制Agent做动作(概率密度函数)
Reward,环境基于当前动作给出的奖励(正向或负向)
Return,回报(所有时刻的奖励和)
3. 强化学习算法分类
强化学习算法根据寻找最优策略的过程可以分为两类:
(1)直接求解最优策略:在与环境的交互过程中,直接优化最优策略函数(Policy,比较困难)
基于策略求解
(2)间接求解最优策略:不直接解最优策略函数,而是通过间接求取其他指标(价值函数),根据这些指标的结果来推导最优策略
基于价值求解
现在用的比较广的是两者进行综合使用
火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。
更多推荐
所有评论(0)