自动驾驶安全进入“有法可依”时代！首个统一基准DSBench，拉开大模型安全竞赛的序幕！

自动驾驶越来越靠近真实落地，但我们始终绕不开一个核心问题：安全。市面上很多大模型（VLM）都能看懂路标、识别障碍，可是真要问它“如果行人突然冲出来怎么办？”、“驾驶员疲劳了还能继续开吗？”—— 很少有人做过系统、全面的测评。

小马不会过河

439人浏览 · 2025-11-25 14:55:27

小马不会过河 · 2025-11-25 14:55:27 发布

自动驾驶越来越靠近真实落地，但我们始终绕不开一个核心问题：安全。

市面上很多大模型（VLM）都能看懂路标、识别障碍，可是真要问它“如果行人突然冲出来怎么办？”、“驾驶员疲劳了还能继续开吗？”—— 很少有人做过系统、全面的测评。

为此，小米汽车、中国科学技术大学、佐治亚理工学院等团队联合推出了 DSBench —— 第一个把“车外风险”和“车内风险”都纳入评测的大型基准，并基于此训练了一个专用 VLM：DSVLM。

我们希望：让自动驾驶不只是聪明，更是足够谨慎。

1 — 为什么做 DSBench？

视觉-语言模型（VLM）在自动驾驶领域展现出巨大潜力，但其在安全关键场景中的适用性仍缺乏深入探索，带来安全隐患。这一问题的根源在于缺少能够同时评估外部环境风险与车内驾驶行为安全的综合基准。

为弥补这一关键空白，我们提出了DSBench，这是首个以统一方式评估VLM对多种安全风险感知能力的综合驾驶安全基准。

DSBench涵盖两大类别：外部环境风险与车内驾驶行为安全，共划分为10个关键类别和28个子类别。该综合评测覆盖广泛场景，确保对VLM在安全关键情境下的表现进行全面评估。我们在多种主流开源与闭源VLM上进行广泛评测，结果表明在复杂的安全关键场景中性能显著下降，凸显了紧迫的安全问题。

为此，我们构建了一个包含98K实例的大规模数据集，聚焦车内与外部安全场景；实验显示，在该数据集上进行微调能显著提升现有VLM的安全性能，为推进自动驾驶技术发展铺平道路。

2 — 多维度安全分类覆盖更广，刻画更细

在安全体系构建上，DSBench 并未停留在传统的“行人与障碍物”层面，而是从真实驾驶风险出发，建立了覆盖车外环境、车内状态、驾驶行为、规则遵循等多个维度的安全分类体系。

我们将安全划分为 10 大类、28 个细粒度子类，不仅区分不同类型的交通元素与危险物，还深入到驾驶员情绪、注意力状态、驾驶舱物品摆放等往往被忽视的风险因素。这样的高分辨率安全刻画，使模型能够面对更复杂、更真实的风险场景，形成更扎实的“安全理解能力”与“情境推理能力”，为自动驾驶大模型的可靠评估奠定了坚实基础。

3 — DSBench的构建过程兼顾效率与可靠性

DSBench 的构建过程是整篇工作的核心，也是我们投入最多精力的部分。

为了让模型真正“理解危险、识别风险”，我们并不是简单地把现有数据拼凑在一起，而是从真实驾驶安全逻辑出发，构建了一个系统化、可复现、可扩展的完整流程。

首先，我们广泛整合了来自道路场景与车内驾驶行为的 10+ 主流数据源，涵盖交通参与者、动态风险、驾驶员状态、驾驶舱布局等真实因素。
其后，我们由安全专家团队设计结构化场景模板，对每个画面进行“关键危险元素 → 风险机制 → 可观察证据”的系统拆解，确保每一个场景都能对应具体的安全问题。
基于这些模板，我们再利用先进 VLM 扩展生成高质量问答，使同一场景能够覆盖规则理解、风险判断、行为推理等多方面能力。
最终，所有生成内容都经过严格的人类审核、多轮过滤和一致性校验，形成了 3000 个高风险场景 + 98K 细粒度安全问答的高质量测试集。

得益于这一“专家设计 × 大模型扩展 × 人工复核”的多阶段构建体系，DSBench 不仅规模大、维度全，而且具备真正的安全可信度——它能帮助我们深入解析模型在安全推理上的长板与短板，为推动自动驾驶大模型的可靠性研究奠定了坚实基础。

4 — 我们测评了 16 个主流 VLM：结果很惊人

基于 DSBench，我们对行业内 16 个主流视觉语言模型（VLM）进行了系统、统一、细粒度的安全能力评测，覆盖商用闭源模型（如 GPT-4o）、头部开源模型（如 Qwen2.5-VL、InternVL3.5）、以及专为自动驾驶构建的行业模型（如 DriveLMM、RoboTron-Drive）。

结果显示，目前的大模型虽然在常规视觉理解上表现强劲，但在“安全”这一真正关键且高风险的能力上，普遍存在显著短板。

从全局安全得分来看，大多数模型在复杂风险场景下均出现理解偏差或决策错误，尤其是在驾驶舱场景、细粒度危险元素识别、驾驶员状态判断、规则推理等高度安全敏感的任务上表现不佳。更令人意外的是，一些旗舰级模型在某些子类任务上的表现甚至不如中小规模开源模型，说明通用能力强≠安全能力强。

在如此严苛的评测体系下，我们提出的 DSVLM 展现出巨大的性能优势：

整体安全得分领先第二名 18.88 分，优势断层式拉开；
10 个安全大类全部取得 SOTA（包括车外风险、驾驶行为、驾驶舱状态等关键维度）；
在“驾驶员状态与驾驶舱风险”这一极度挑战性的任务中，领先其他模型超过 50 分；
更在开放域（如 LingoQA）中保持良好泛化，证明改进不仅来自“刷数据”，而是模型真正学会了更稳健的安全推理能力。

这些结果清晰地表明：

DSBench 揭示了现有 VLM 的安全短板，而 DSVLM 则证明了通过系统性的安全训练，大模型能够在关键风险场景中得到质的提升。

5 — DSBench 的意义与影响

行业标准雏形：为自动驾驶领域提供了首个全维安全评测框架。

研究价值：可以作为训练数据源 +评估基准，推动更多安全导向模型的出现。

应用前景：未来，汽车厂商、模型公司可以用它来检测系统潜在风险、提升安全性。

如何高效转型Al大模型领域？

作为一名在一线互联网行业奋斗多年的老兵，我深知持续学习和进步的重要性，尤其是在复杂且深入的Al大模型开发领域。为什么精准学习如此关键？

系统的技术路线图：帮助你从入门到精通，明确所需掌握的知识点。
高效有序的学习路径：避免无效学习，节省时间，提升效率。
完整的知识体系：建立系统的知识框架，为职业发展打下坚实基础。

AI大模型从业者的核心竞争力

持续学习能力：Al技术日新月异，保持学习是关键。
跨领域思维：Al大模型需要结合业务场景，具备跨领域思考能力的从业者更受欢迎。
解决问题的能力：AI大模型的应用需要解决实际问题，你的编程经验将大放异彩。

以前总有人问我说：老师能不能帮我预测预测将来的风口在哪里？

现在没什么可说了，一定是Al；我们国家已经提出来：算力即国力！

未来已来，大模型在未来必然走向人类的生活中，无论你是前端，后端还是数据分析，都可以在这个领域上来，我还是那句话，在大语言AI模型时代，只要你有想法，你就有结果！只要你愿意去学习，你就能卷动的过别人！

现在，你需要的只是一份清晰的转型计划和一群志同道合的伙伴。作为一名热心肠的互联网老兵，我决定把宝贵的AI知识分享给大家。至于能学习到多少就看你的学习毅力和能力了。

在这里插入图片描述

第一阶段（10天）：初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识，对大模型 AI 的理解超过 95% 的人，可以在相关讨论时发表高级、不跟风、又接地气的见解，别人只会和 AI 聊天，而你能调教 AI，并能用代码将大模型和业务衔接。

大模型 AI 能干什么？
大模型是怎样获得「智能」的？
用好 AI 的核心心法
大模型应用业务架构
大模型应用技术架构
代码示例：向 GPT-3.5 灌入新知识
提示工程的意义和核心思想
Prompt 典型构成
指令调优方法论
思维链和思维树
Prompt 攻击和防范
…

第二阶段（30天）：高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习，学会构造私有知识库，扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架，抓住最新的技术进展，适合 Python 和 JavaScript 程序员。

为什么要做 RAG
搭建一个简单的 ChatPDF
检索的基础概念
什么是向量表示（Embeddings）
向量数据库与向量检索
基于向量检索的 RAG
搭建 RAG 系统的扩展知识
混合检索与 RAG-Fusion 简介
向量模型本地部署
…

第三阶段（30天）：模型训练

恭喜你，如果学到这里，你基本可以找到一份大模型 AI相关的工作，自己也能训练 GPT 了！通过微调，训练自己的垂直大模型，能独立训练开源多模态大模型，掌握更多技术方案。

到此为止，大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗？

为什么要做 RAG
什么是模型
什么是模型训练
求解器 & 损失函数简介
小实验2：手写一个简单的神经网络并训练它
什么是训练/预训练/微调/轻量化微调
Transformer结构简介
轻量化微调
实验数据集的构建
…

第四阶段（20天）：商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知，可以在云端和本地等多种环境下部署大模型，找到适合自己的项目/创业方向，做一名被 AI 武装的产品经理。

硬件选型
带你了解全球大模型
使用国产大模型服务
搭建 OpenAI 代理
热身：基于阿里云 PAI 部署 Stable Diffusion
在本地计算机运行大模型
大模型的私有化部署
基于 vLLM 部署大模型
案例：如何优雅地在阿里云私有部署开源大模型
部署一套开源 LLM 项目
内容安全
互联网信息服务算法备案
…

学习是一个过程，只要学习就会有挑战。天道酬勤，你越努力，就会成为越优秀的自己。

如果你能在15天内完成所有的任务，那你堪称天才。然而，如果你能完成 60-70% 的内容，你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【`保证100%免费`】

在这里插入图片描述

火山引擎 ADG 社区

火山引擎开发者社区是火山引擎打造的AI技术生态平台，聚焦Agent与大模型开发，提供豆包系列模型（图像/视频/视觉）、智能分析与会话工具，并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长，新用户可领50万Tokens权益，助力构建智能应用。

更多推荐

OpenClaw 本地部署完整指南（Windows + Ollama）

本文档基于实际部署经验编写，旨在帮助你在 Windows 系统上从零开始搭建 OpenClaw，并连接本地 Ollama 模型（如 Qwen2.5 或 Qwen3），使其具备完整的智能体能力。文档包含了所有关键步骤以及常见问题的解决方案。

火山引擎 ADG 社区

OpenClaw 小白安装指南（Windows版）

（类似一个能自动执行任务的AI机器人），不是游戏。API Key只保存在你本地电脑的加密文件里，不会上传到任何地方。访问：https://github.com/miaoxworld/openclaw-manager/releases。: 一键安装脚本会自动安装Node.js 22+，如果失败，手动下载安装：https://nodejs.org/：在PowerShell中，鼠标右键就是粘贴，不需要按

火山引擎 ADG 社区

飞书 × OpenClaw 接入指南：不用服务器，用长连接把机器人跑起来

这个项目存在的意义，就是把“飞书接 OpenClaw”这件事，整理成一套的配置入口，并把官方文档没覆盖到的坑集中写成排查清单。先说清楚它的角色：OpenClaw 现在已经内置官方飞书插件 @openclaw/feishu，功能更完整、维护也更及时。，说明飞书 + AI 的接入已经走通。另外，仓库也推荐了一个新项目：把 OpenClaw 变成“多 Agent 团队”，用多个 Agent 分工，Sla