智驾行为决策技术介绍——决策技术——智能驾驶专栏
在自动驾驶行为决策中, DQN、DDPG 和 PPO 是典型的 DRL 算法, 它们分别代表了基于值函数、确定性策略梯度和概率策略优化三种典型的策略更新范式, 广泛应用于不同控制精度与任务复杂度的场景中.从技术演进看,决策方法已从传统的规则式(逻辑透明但泛化弱)、控制理论式(实时性强但缺全局视角),向融合强化学习(动态适应复杂场景)、多智能体博弈(应对多车交互)及注意力机制(聚焦关键信息)的方向发
1 引言
在自动驾驶系统中, 行为决策系统扮演着“大脑中枢”的核心角色, 负责整合来自环境感知层收集的精确数据, 依据驾驶任务和控制目标生成决策指令, 并将其传递至控制执行层, 从而确保智能化操作的高效实现。

一个可靠的行为决策系统不仅能够提升自动驾驶车辆的智能性、安全性、经济性和舒适性, 还可以增强乘驾人员的信任度、接受度和满意度, 同时促进交通系统的合法性、协调性与高效性
在现阶段的研究中, 自动驾驶行为决策可大致 分为四种类型:
|
方法类型 |
核心原理 |
核心优势 |
主要不足 |
|
基于规则的方法 |
依托预设规则库,结合交通环境、法律法规及驾驶经验推导决策 |
可解释性强、安全性高 |
复杂动态环境适应性差,难扩展至新场景 |
|
基于优化理论的方法 |
建模为数学优化问题,通过目标函数与约束条件实现全局规划、路径优化 |
效率高、鲁棒性强 |
依赖精确环境建模,高维非线性问题计算复杂、实时性差 |
|
基于控制理论的方法 |
聚焦实时反馈控制与稳定性优化,主打短期动态调整 |
快速实现局部优化,适配跟车、车道保持 |
缺乏全局视角与决策能力,难应对长时复杂任务 |
|
基于学习的方法 |
从大量驾驶数据中自动提取特征,持续优化驾驶策略 |
处理复杂任务能力强,响应快、适应性强 |
原文未提及明确不足 |
自动驾驶行为决策技术经历了从规则驱动到数据驱动, 再到大模型阶段的演进过程
2 基于DRL的自动驾驶行为决策应用
DRL算法可根据智能体数量和交互模式分为单 智 能 体深度强化学习(Single-agent Deep Reinforcement Learning, SADRL)算法和多智能体深度强化学习(Multi-agent Deep Reinforcement Learning, MADRL)算法, 分类总体框架如图所示

SADRL(基于强化学习的自动驾驶决策)主要分为有模型 DRL、无模型 DRL 和模仿学习三类,各类算法的核心逻辑、优缺点及代表方案如下:
2.1 SADRL
SADRL可以根据是否使用模型分为有模型、无 模型和模仿学习三类
2.1.1 基于模型的 DRL
这类算法会先学习一个模型,用来描述状态转换规律和评估奖励。它能明显提升样本效率,但很难预先把所有未知情况都建模进去,所以构建有模型的控制过程还是比较难。实际应用中常靠神经网络近似环境模型,导致算法对网络的依赖性较强。代表算法:World Models、AlphaZero、基于模型的策略优化(MBPO)。
2.1.2 无模型的 DRL
这类算法不用依赖环境模型,主要分三个方向:
-
基于值函数:先评估动作的价值(值函数),再用这个价值优化当前策略,适合离散的状态和动作空间。代表算法:Q-Learning、SARSA。
-
基于策略:不用明确计算每个 “状态 - 动作对” 的价值(Q 值),而是通过估计策略函数的参数,用训练好的策略模型做决策。代表算法:策略梯度(PG)、蒙特卡洛策略梯度。
-
Actor-Critic(AC)框架:结合前两者的特点,引入两个网络 —— 动作网络(Actor)负责输出决策,评判网络(Critic)评估动作价值。它能同时学习策略和值函数,学习效率更高,还能处理连续动作空间和噪声环境(比传统 PG 算法更高效)。代表算法:优势演员 - 评论家(A2C)、异步优势演员 - 评论家(A3C)、DDPG、双延迟深度确定性策略梯度(TD3)、软演员 - 评论家(SAC)。
2.1.3 模仿学习
核心是让智能体模仿专家行为来加快学习,不用依赖环境的奖励信号。具体来说,专家会提供一系列 “状态 - 动作对”,体现自己在特定场景下的驾驶决策;智能体(模仿者)用这些数据训练,尽量达到专家的策略水平。代表算法:行为克隆(BC)、生成对抗模仿学习(GAIL)、逆强化学习(IRL)。

2.2 MADRL
MADRL(多智能体强化学习)的基础是马尔可夫博弈(又称随机博弈)。在这个框架里,所有智能体根据当前环境状态同时选动作,这些动作形成的联合行为,既会改变环境状态,也会影响每个智能体拿到的奖励。正因为能让多个智能体互动完成复杂任务,MADRL 很适合解决自动驾驶里的多车协同决策问题。
2.2.1 集中学习
集中学习依赖中心控制器,统一处理所有智能体的决策,更适合训练阶段做全局优化。典型算法有 Q-mix 和值分解网络(VDN),能从全局视角优化系统目标,更容易得到整体最优解。但它的问题也很明显:需要大量通信资源,很难满足实时决策需求,实际应用时扩展性也比较弱。
2.2.2 分布式学习
分布式学习让每个智能体独立学习、独立决策,特别适合需要实时响应的场景。这种方式不用中心控制器,能减少通信需求,同时提升系统的实时性和扩展性。以独立 Q 学习(IQL)为代表的算法,在动态多变的交通环境里,能快速调整智能体的决策策略。不过它也有缺点:容易陷入局部最优解,很难保证整个系统的全局最优。
2.3 基于DRL的自动驾驶行为决策发展历程
自动驾驶行为决策技术的智能化进程与DRL 的发展呈现出高度耦合的态势. DRL在自动驾驶中 的应用经历了从离散决策问题到连续动作决策, 再 到多智能体协同决策的逐步演进, 如图所示.

为了克服离散算法的局限性, 研究者们提出了 基于AC框架的算法, 推动了DRL在自动驾驶连续 控制任务中的应用。在该框架的 基础上, DDPG、近端策略优化算法(Proximal Policy Optimization, PPO)、TD3和SAC等经典算法被相继提出。

2.4 典型场景中的应用
传统以跟驰、换道、转弯为核心的建模方法,难以满足高复杂、高风险驾驶场景需求。因此,本节对驾驶场景精细分类,提炼典型场景,为基于 DRL 的行为决策系统提供研究基础。

按道路类型,交通场景可分为四类:
-
高等级公路:核心解决车辆安全稳定运行与交通高效流转,典型场景包括主线运行、匝道合流、匝道分流;
-
城市道路:需应对行人和机非混合交通流,典型场景为信控与非信控交叉口;
-
乡村道路:主要挑战是横向突发闯入(可能发生在交叉口或普通路段);
-
特殊路段(急弯、陡坡、施工区):因环境不确定且动态变化,对自动驾驶的感知、预测、决策能力要求更高。
现有方案多集中于特定道路场景,对乡村道路等 “长尾问题” 场景关注较少;研究重点除跟驰、换道等基本行为外,还包括持续运行(如主线长距离驾驶)、交汇(如匝道合流、交叉口)、并线(如施工区车道变更)场景。基于此,本文选取主线运行、匝道合流、交叉口、施工区四类典型场景,通过分析核心挑战与关键技术,探讨基于 DRL 的优化策略与应用方法,为复杂场景下自动驾驶行为决策提供参考。
3 基于规则的行为决策方法
基于规则的决策方法发展较早并在简单环境中表现出了较好的应用效果。该方法 通过划分无人驾驶车辆的行为,根据行驶规则、知识、经验、交通法规等建立行为规 则库,并按照规则逻辑确定车辆行为。

基于规则行为决策最经典的模型为有限状态机 (Finite State Machine,FSM)模型。该模型本质上是一个离散输入输出的系统,在有 限的状态集合内,通过当前状态作为输入信息,针对不同状态依据安全和舒适的原则 产生有关行动。依据各状态之间的转移关系,可将限状态机分为以 Talos 为代表 的串联式、以 Junior、Bertha、红旗 CA7460为代表的并联式和以智能先锋II、Bossx、Odin为代表的混联式三种结构

基于规则的行为决策方法均以规则为基础对行驶场景进行辨识和响应,因清晰可 视化的逻辑而便于调试,简单且实用。但随着驾驶场景的丰富以及自动驾驶相关法规 的出台,驾驶规则的合理制定变得愈发困难,不仅如此,缺乏场景不确定性的考虑使 基于规则的行为决策方法灵活性差,难以适应复杂的驾驶场景。
4 基于博弈的行为决策
在智能网联环境下,自动驾驶车辆间信息交互频繁,丰富的环境信息进一步推动其寻求更优驾驶条件;车辆换道以满足速度期望时,易与周边车辆形成换道博弈,这种动态博弈直观反映自动驾驶车辆的换道特性,进而影响换道行为决策的制定。
4.1 博弈论的发展
博弈论,也被称为对策论或赛局理论。在使用博弈论进行策略分析时具有权 衡的思路特点,因此一般用其研究含有矛盾性及竞争性的问题。博弈论是分析辅 助工具,通常用于理解决策主体间的相互作用现象。此外,理性是使用博弈论研 究具体问题的基本假设条件,处于博弈系统中的决策主体是理性的,这些理性的 决策主体均清楚博弈中的规则,并能做出具有收益性的决策。

4.2 博弈的基本理论
博弈论是研究多决策主体在交互场景中,基于自身目标选择最优策略以实现收益最大化的理论体系,核心聚焦 “策略依存性”—— 任一主体的决策效果均受其他主体策略影响。其构成需满足三大要素:
一是参与者(如智能驾驶中的自动驾驶车辆、人类驾驶车辆),即具备决策能力的行为主体;
二是策略集,指参与者可选择的全部行动方案(如换道博弈中的 “立即换道”“延迟换道”“放弃换道”);
三是收益函数,用于量化不同策略组合下参与者的收益或损失(如换道成功的时间收益、冲突风险的成本损失)。
根据参与者是否存在协议约束,博弈可分为合作博弈与非合作博弈,其中非合作博弈(如纳什均衡所描述的策略稳定状态)更贴合智能驾驶场景 —— 车辆间无强制协作协议,需通过自主策略博弈达成动态平衡。该理论为解析自动驾驶换道、交叉口通行等多主体交互行为提供了量化分析框架,是推导最优决策策略的核心理论基础
在现有的学科领域中存在多种博弈,从不同的角度可以将博弈分为不同的种 类。通常选取参与对象数量、合作关系、信息完整性以及动作顺序性等角度进行 博弈的类别划分,分类的结果如表

根据参与对象之间是否存在合作性的约束力协议,能够将博弈划分为合作博 弈与非合作博弈两类。此外,基于参与对象的动作顺序性及信息完整性又可以将 非合作博弈划分为完全信息静态博弈、完全信息动态博弈、不完全信息静态博弈 与不完全信息动态博弈等四种博弈,而这四种博弈分别对应纳什均衡、子博弈精 炼纳什均衡、贝叶斯纳什均衡以及精炼贝叶斯纳什均衡等四种均衡

4.3 换道行为的博弈特性
事物变化中难免存在冲突与合作,可借助博弈论分析解决,这一逻辑适用于自动驾驶换道场景。换道涉及车道变更,具有时间与空间动态特性,当前车道换道车辆(LV)受前车(PV)速度约束产生换道意图时,易与目标车道后车(RV)形成速度竞争,进而构成博弈关系。

如图所示,单向双车道换道博弈场景中,LV、PV 行驶于当前车道,目标车道有前车(FV)与 RV,各车沿车道中心行驶。博弈核心参与方为 LV 与 RV:若二者均按预定轨迹(LV 走蓝色曲线、RV 走绿色直线)行驶,将汇聚于潜在冲突点引发碰撞;仅当 “LV 换道 + RV 避让” 或 “LV 放弃换道” 时可规避冲突。但 LV 倾向换道以获取速度收益,RV 则倾向不避让,需结合安全性与速度收益综合权衡。
换道博弈类型由参与方信息与动作决定:一是双方均清晰认知博弈策略与收益,属完全信息博弈;二是换道过程中双方通过信息交互同时完成一次博弈操作,属静态博弈。综上,该换道博弈为完全信息静态博弈。

在全自动驾驶环境下,自动驾驶车辆之间存在信息的交互性。当产生换道意 图后,自动驾驶车辆能够及时获取周围车辆的距离及速度等相关信息,在明确博 弈参与对象后形成换道博弈系统,并基于换道博弈系统分析各参与对象的博弈策 略。此外,在探究安全性与舒适性的基础上,考虑车辆的速度收益,从而得到属 于该换道博弈的混合策略纳什均衡。自动驾驶车辆具体的换道博弈决策流程如上图
5 类人行为决策方法
人类完成驾驶任务是一个复杂且多阶段相互配合的动态过程。

首先在感知阶段, 主要依靠视觉获取外界信息;接着在认知阶段,将获取的信息在大脑处理整合分析,综合考虑多种因素进行决策;最后在操作阶段,通过四肢控制车辆完成驾驶任务。这一过 程中关键信息的抓取和大脑判断决策非常重要
类人决策模型框架

5.1 理论依据
长短期记忆网络(Long Short-Term Memory, LSTM),如图所示,是一种专为解 决循环神经网络长程依赖与梯度消失问题而设计的门控递归架构。

其核心创新在于引 入细胞状态(Cell State)与三重复合门控机制:遗忘门(Forget Gate)、输入门(Input Gate)和 输出门(Output Gate)。通过门控的协同作用,LSTM在时间维度上动态调节信息流,实 现长期记忆的稳定存储与短期上下文的适应性遗忘。
5.2 注意力机制
注意力机制是模拟人类认知资源分配的计算范式,核心是通过动态加权输入序列元素关联性,强化模型对关键信息的聚焦能力。在深度学习中引入该机制,可解决传统神经网络难捕捉特征关联的问题 —— 通过动态权重分配聚焦关键信息、弱化无关信息,进而抑制梯度消失,提升模型泛化性与可解释性。

其主要类别包括:自注意力机制,通过计算序列内部元素相关性动态分配权重,借助查询(Query)、键(Key)、值(Value)三元组与相似度计算生成权重矩阵,实现长程依赖捕捉与特征表征增强;通道注意力机制,针对 CNN 特征通道建模依赖关系,通过学习全局上下文生成通道权重,提升关键特征敏感度;空间注意力机制,针对特征图空间维度学习二维权重图,实现像素级重要性建模,原理与通道注意力类似。

多头注意力机制是自注意力的延伸,通过设置多个 “头”(heads)让模型在不同子空间并行关注输入序列不同部分,可从多视角提取关键特征。针对本文涉及的多模态数据(交通场景数据、眼动数据、关注点信息),不同 “头” 能分别聚焦各类数据的不同维度与模式;各 “头” 独立学习注意力权重,最终通过权重综合生成更丰富的特征表示,为复杂行为决策模式的全面捕捉提供支撑。
6 自动驾驶策略更新介绍
在自动驾驶行为决策中, DQN、DDPG 和 PPO 是典型的 DRL 算法, 它们分别代表了基于值函数、确定性策略梯度和概率策略优化三种典型的策略更新范式, 广泛应用于不同控制精度与任务复杂度的场景中.
(1) DQN
DQN 是基于值函数的策略更新代表算法, 通过更新 Q 值函数来选择最优动作. 该方法的策略更新流程如图所示

(2)DDPG
DDPG 是一种基于确定性策略梯度更新的代表算法, 通过分别训练 Actor 和 Critic 网络来优化策略与估值函数, 能够精细调整控制参数, 如车辆的加速、刹车力度等. 该方法的策略更新流程如图所示

(3) PPO
PPO 是一种基于概率策略优化更新的代表算法, 具有较好的训练稳定性和样本训练效率. 其核心思想是通过计算新旧策略的概率比, 结合优势函数来优化策略, 并且在更新过程中通过裁剪机制防止过大的更新幅度, 如图所示

7 总结
从技术演进看,决策方法已从传统的规则式(逻辑透明但泛化弱)、控制理论式(实时性强但缺全局视角),向融合强化学习(动态适应复杂场景)、多智能体博弈(应对多车交互)及注意力机制(聚焦关键信息)的方向发展,逐步解决 “长尾场景” 适配、多目标平衡等核心痛点。尽管当前仍面临安全性验证、仿真到真实环境迁移等挑战,但作为智能驾驶落地的关键环节,其技术成熟度直接决定了自动驾驶系统的实用化水平与用户接受度。
火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。
更多推荐
所有评论(0)