🤖 强化学习入门专栏目录

📘 第一部分:基础概念篇

  1. 【RL基础01】强化学习是什么?智能体、环境与奖励
  2. 【RL基础02】马尔可夫决策过程(MDP)详解
  3. 【RL基础03】值函数、策略与贝尔曼方程
  4. 【RL基础04】动态规划、蒙特卡洛与时序差分方法对比

🧠 第二部分:核心算法篇

  1. 【算法01】Q-Learning 原理与代码实现
  2. 【算法02】SARSA 与 Q-Learning 的异同
  3. 【算法03】策略梯度(Policy Gradient)入门
  4. 【算法04】Actor-Critic 框架详解
  5. 【算法05】深度强化学习初探:DQN
  6. 【算法06】DQN 的改进版:Double DQN 与 Dueling DQN
  7. 【算法07】PPO 算法原理与实战
  8. 【算法08】A2C / A3C 介绍与实现
  9. 【算法09】SAC 与 TD3:连续动作空间中的利器

🏞️ 第三部分:环境实战篇

  1. 【环境01】Gym 入门:CartPole 小车平衡实验
  2. 【环境02】MountainCar 环境:爬坡问题的挑战
  3. 【环境03】Atari 游戏环境配置与 Pong 实战
  4. 【环境04】MuJoCo 环境安装与 HalfCheetah 训练
  5. 【环境05】自定义 Gym 环境教程

🔧 第四部分:工具库使用篇

  1. 【工具01】Stable-Baselines3 安装与入门
  2. 【工具02】用 PPO 玩转 CartPole
  3. 【工具03】用 DQN 玩 Atari Pong
  4. 【工具04】并行训练与向量化环境
  5. 【工具05】结果可视化:TensorBoard 与 Reward 曲线
  6. 【工具06】RLlib 与分布式强化学习初探

📊 第五部分:进阶与应用篇

  1. 【进阶01】探索 vs 利用:ε-贪心与UCB
  2. 【进阶02】多智能体强化学习(MARL)入门
  3. 【进阶03】强化学习在机器人中的应用案例
  4. 【进阶04】强化学习在金融中的探索
  5. 【进阶05】强化学习在游戏 AI 中的应用

✅ 学习路径建议

  • 新手推荐阅读顺序
    概念篇 → 算法篇(Q-Learning → 策略梯度 → DQN → PPO) → 环境实战(CartPole → Atari → MuJoCo) → 工具篇 → 进阶应用
  • 读者能从 理论理解 → 算法掌握 → 实战训练 → 应用拓展,形成完整学习闭环。

Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐