在这里插入图片描述
发表于:2025Neurlps
原文链接:https://arxiv.org/abs/2510.21449

Abstract

视频异常检测(VAD)旨在定位视频中不寻常的活动或行为。近年来,离线视频异常检测已受到大量研究关注 —— 大型语言模型(LLMs)和视觉 - 语言模型(VLMs)的发展为更细致地理解异常现象提供了可能,进一步推动了该领域的研究。然而,受实时性约束和计算复杂度的影响,在线视频异常检测鲜少得到关注。本文提出一种基于记忆的在线评分队列方案,用于无训练视频异常检测(MoniTor),以解决在线视频异常检测中的固有复杂性。具体而言,MoniTor 将流式输入应用于视觉 - 语言模型,充分利用预训练大规模模型的能力。为更有效地捕捉时间依赖关系,我们引入了一种受长短期记忆(LSTM)网络启发的新型预测机制,确保模型能够有效建模历史状态,并利用先前的预测结果识别异常行为,从而更好地理解当前帧信息。此外,我们设计了评分队列和异常先验知识,动态存储近期评分并覆盖监控场景中的所有异常类型,为大型语言模型提供长期区分正常与异常行为的指导。我们在两个包含多种监控场景和真实世界场景的大型数据集(UCF-Crime 和 XD-Violence)上对 MoniTor 进行了评估。结果表明,MoniTor 的性能优于现有最先进方法,且在无需训练的情况下可与弱监督方法相媲美。代码已开源至https://github.com/YsTvT/MoniTor。

1 Introduction

在这里插入图片描述

视频异常检测(VAD)旨在定位视频中的异常活动或行为,这对于视频理解相关应用至关重要[16, 12, 10, 11]。然而,现有视频异常检测方法[1, 47, 41, 7]大多采用离线模式,忽略了实时监控和实际应用的需求——这些需求在智能监控[14, 15, 18, 37, 17]、自动驾驶[4]等众多现实场景中同样发挥着重要作用。

与离线视频异常检测相比,在数据以流式/在线方式传输的场景中,异常检测难度进一步增加,尤其是当需要在异常发生时即时识别它们的情况下。此外,难点还在于在线异常的固有特性:在实际场景中,这些异常具有不连续性且发生频率低,导致缺乏大量多样的异常训练数据。同时,人类行为的高度复杂性(即包含大量正常和异常动作),给视频异常检测模型在现实环境中的泛化能力带来了挑战。现有数据集无法全面捕捉人类行为的多样性,这极大地限制了视频异常检测模型在不同领域和场景中的泛化能力。例如,Karim等人[21]提出了REWARD,一种用于实时异常检测的弱监督框架。尽管它被训练为端到端视频模型,但由于训练数据有限,REWARD在应对动态相机角度和复杂场景时表现不佳,这限制了其在多样场景中的适用性。

近年来,已有视频异常检测解决方案致力于利用预训练大规模模型应对这些挑战。Zanella等人[50]提出了LAVAD,一种无训练视频异常检测方法,该方法利用大型语言模型(LLMs)直接从文本中为潜在异常评分,从而绕过数据收集和标注过程。然而,LAVAD仅限于离线视频异常检测,因为将大型语言模型应用于在线视频异常检测面临额外挑战:在正常视频中遇到异常相关记忆时,捕捉历史信息进行异常评分可能导致模型误判;此外,大型语言模型对显式指令的依赖,也阻碍了其真正识别异常事件的能力。

在本文中,我们提出了一种新颖的基于记忆的在线评分队列方案,用于无训练视频异常检测(命名为MoniTor),以解决上述挑战。如图1所示,MoniTor能够精准高效地识别各类异常事件。首先,我们通过动态记忆门控模块引入分层双记忆架构,系统性地解决在线异常固有的时间不连续性问题。该架构整合了带有自适应遗忘机制的长期情景记忆模块,以及编码细粒度时空模式的短期工作记忆模块。通过这种双记忆设计,我们有效应对了现实场景中异常事件不连续且罕见的挑战。其次,我们通过标准评分队列制定了规范化的异常评分协议,该协议包含用于序列异常描述符传播的新型排队机制。此协议利用了源自百科全书式资源的知识增强型异常先验知识,显著扩展了模型在各类异常事件中的泛化能力,解决了人类行为高度复杂性和现有数据集局限性带来的障碍。第三,我们在行为预测与动态分析组件中提出了预测性评分框架,该框架利用流式视频中的时间因果关系,建立了期望与现实之间的反馈循环,即使在突发异常具有随机性和罕见性的情况下,也能提高检测灵敏度。因此,我们的方法有效缓解了缺乏大量多样异常训练数据的问题。

此外,我们在具有挑战性的基准数据集(即UCF-Crime[38]和XD-Violence[48])上进行了严格的实验验证。综合分析表明,在多个评估指标上,MoniTor显著优于最先进的在线无监督方法和离线无训练方法。这些结果实证验证了我们的框架能够有效捕捉时间上下文,并促进大型语言模型对异常的稳健理解,克服了视频异常检测模型在特定数据集之外效果受限的显著问题。

总之,我们的贡献主要体现在四个方面:

  1. 提出了MoniTor,将大型语言模型(LLMs)应用于在线视频异常检测。该模型通过流式视频输入实现实时监控,能够以0.6秒的间隔生成异常评分,同时保持5秒的端到端处理延迟。
  2. 将长短期记忆(LSTM)网络与大型语言模型相结合,有效编码历史序列信息,提升在线视频异常检测性能,使异常事件边界的识别更加精准。
  3. 提出创新的评分队列机制,以缓解大型语言模型中与指令依赖相关的挑战;此外,引入异常先验知识,帮助大型语言模型有效识别异常事件
  4. 大量实验表明,所提出的MoniTor性能优于无监督方法,并超越了离线无训练方法。

3 Method

在这里插入图片描述

本文方法的整体框架如图 2 所示。具体而言,从未剪辑视频中提取帧后,将其输入在线视觉 - 语言模型以生成文本摘要。随后,通过异常先验知识整合模块引导大型语言模型(LLM)更好地理解异常事件的概念。为充分整合历史信息,动态记忆门控模块分别对长期和短期历史帧的文本摘要进行汇总,并将其传递给大型语言模型。同时,行为预测与动态分析模块用于引导大型语言模型生成下一帧的文本摘要预测结果,该结果将在处理下一帧时传递给大型语言模型。此外,标准评分队列用于存储每个分数对应的历史帧,大型语言模型预测的异常分数将用于更新评分队列。

3.1 Online Vision-Language Model

在线视觉-语言模型的设计目的是像LAVAD[50]一样,将视频帧在线转换为对应的文本描述。在该模块中,我们首先使用5个BLIP-2模型为当前帧 I i I_{i} Ii生成5个原始文本描述 R i = R i 1 , R i 2 , R i 3 , R i 4 , R i 5 R_{i}={R_{i1}, R_{i2}, R_{i3}, R_{i4}, R_{i5}} Ri=Ri1,Ri2,Ri3,Ri4,Ri5。但原始文本描述可能存在噪声,为缓解这一问题,我们充分利用历史信息。对于集合 A = R i ∪ R i − 1 ∪ R i − 2 ∪ R i − 3 ∪ R i − 4 ∪ R i − 5 A=R_{i} \cup R_{i-1} \cup R_{i-2} \cup R_{i-3} \cup R_{i-4} \cup R_{i-5} A=RiRi1Ri2Ri3Ri4Ri5中的每个原始文本描述 A j A_{j} Aj,计算其文本特征与该帧图像特征的余弦相似度 X j X_{j} Xj,计算公式为: X j = < E I ( I i ) ⋅ E T ( A j ) > X_{j}=<E_{I}(I_{i}) \cdot E_{T}(A_{j})> Xj=<EI(Ii)ET(Aj)>,其中 < ⋅ , ⋅ > <\cdot, \cdot> <,>表示余弦相似度, E I E_{I} EI是ImageBind的图像编码器, E T E_{T} ET是ImageBind的文本编码器。之后,根据余弦相似度 X j X_{j} Xj对集合 A A A中所有原始文本描述 A j A_{j} Aj进行排序,选取排名前10的作为清洗后的文本描述 C i = A 1 , A 2 , . . . , A 10 C_{i}={A_{1}, A_{2}, ..., A_{10}} Ci=A1,A2,...,A10。最后,将清洗后的文本描述 C i C_{i} Ci输入GLM-4-Flash生成摘要,即 S i = Φ G L M ( P S ∘ C i S_{i}=\Phi_{GLM}(P_{S} \circ C_{i} Si=ΦGLM(PSCi,其中提示词 P S P_{S} PS的格式为“请根据以下场景的时序描述,用几句话总结所发生的事情”, ∘ \circ 表示文本拼接, Φ G L M \Phi_{GLM} ΦGLM表示通过GLM-4-Flash生成摘要。

3.2 Anomaly Priors Integration

在该模块中,由于UCF-Crime和XD-Violence数据集分别包含13类和6类监控场景中的异常事件,涵盖了多种可能的违规行为。我们计划在上下文提示词中加入异常先验知识 P A P_{A} PA,以引导大型语言模型识别异常并关注相关事件。具体而言,我们通过在上下文提示词中添加来自维基百科的这些异常事件的定义,并酌情提供示例,从而实现对大型语言模型的引导。

3.3 Dynamic Memory Gating Module

该模块基于长短期记忆(LSTM)架构,同时捕捉长期记忆( M l M_{l} Ml)和短期记忆( M s M_{s} Ms)。通过遗忘门( F F F)去除噪声,确保模型准确表征输入信息。长期记忆( M l M_{l} Ml)维护10帧窗口内帧的文本描述摘要,记为 S i = S i − 10 , S i − 9 , . . . , S i − 1 S_{i}={S_{i-10}, S_{i-9}, ..., S_{i-1}} Si=Si10,Si9,...,Si1。这些帧会经过遗忘门筛选,遗忘门通过评估当前帧与历史帧的相似度,保留相似度高于阈值 θ \theta θ的帧用于汇总。长期记忆的更新公式如下:

在这里插入图片描述

其中 < , > <,> <,>表示余弦相似度,文本编码器 E T : T → Z E_{T}: T \to Z ET:TZ将文本映射到向量空间表示。 d i − j d_{i-j} dij是当前帧 S i S_{i} Si与历史帧 S i − j S_{i-j} Sij的余弦相似度, D l D_{l} Dl是经遗忘门筛选后的长期记忆存储内容, j j j是从当前帧回溯前10帧的索引。

与之不同,短期记忆( M s M_{s} Ms)汇总最近两帧( S i − 1 S_{i-1} Si1 S i − 2 S_{i-2} Si2)的文本描述,提供更即时的近期上下文表征。短期记忆的更新公式为 M s = Φ G L M ( D s ) M_{s}=\Phi_{GLM}(D_{s}) Ms=ΦGLM(Ds),其中 D s D_{s} Ds包含前两帧的文本描述。

3.4 Behavior Prediction and Dynamic Analysis

本节旨在利用长期和短期记忆中的汇总信息,增强模型的行为预测和动态分析能力。由于长短期记忆(LSTM)架构在分析序列数据方面表现出色,特别适合视频序列中的行为预测,因此我们采用该架构。该方法在模型的评分阶段也发挥着关键作用。预测结果通过以下公式获得: P 2 = Φ G L M ( P p ∘ S i ∘ P p f ) P_{2}=\Phi_{GLM}(P_{p} \circ S_{i} \circ P_{pf}) P2=ΦGLM(PpSiPpf),其中 S i S_{i} Si表示当前帧的摘要, P 2 P_{2} P2是基于当前帧对下一帧的预测结果,预测步骤在前一阶段的评分过程中执行。提示词组件 P p P_{p} Pp设计为:“如果你是执法机构,请基于当前场景预测接下来可能发生的事情,考虑到可能存在的可疑活动或行为,如虐待、逮捕、纵火、袭击、入室盗窃、扰乱公共秩序、爆炸、斗殴、抢劫、枪击、盗窃或破坏行为。请根据当前上下文提供简洁的预测。” P p f P_{pf} Ppf的格式为:“请简洁预测场景中接下来可能发生的行为或事件,避免任何额外解释。”该方法能够对动态视频序列中的潜在行为进行精准且有针对性的评估,优化模型的评分和分析能力。

3.5 Standard Scoring Queue

在该模块中,我们为大型语言模型实现了动态评分系统,帮助模型基于预定义的评估标准生成高质量输出。为实现这一目标,我们维护一个评分队列 Q = Q 0 , Q 0.1 , . . . , Q 1 Q={Q_{0}, Q_{0.1}, ..., Q_{1}} Q=Q0,Q0.1,...,Q1,其中每个元素 Q i Q_{i} Qi代表获得分数 i i i的最新文本描述。评分队列作为这些异常评估结果的存储库,支持实时更新和比较,其更新方式如下: Q a i − 1 = S i − 1 Q_{a_{i-1}}=S_{i-1} Qai1=Si1,其中 a i − 1 a_{i-1} ai1表示第 i − 1 i-1 i1帧的异常分数, S i − 1 S_{i-1} Si1表示第 i − 1 i-1 i1帧的文本描述。该公式表明,第(i-1)帧的摘要 S i − 1 S_{i-1} Si1会根据其异常分数 a i − 1 a_{i-1} ai1存储在队列中对应的位置 Q a i − 1 Q_{a_{i-1}} Qai1,用于记录和跟踪该特定时刻的异常检测结果,并为大型语言模型提供评分指导。

3.6 Score Optimization and Weight Assignment

在我们的方法中,采用动态权重分配策略,自适应平衡当前帧分数与前一帧分数的重要性。该机制使模型能够响应视频序列中的变化,同时保留基于前帧的连续性。通过这种方式,模型可以逐步适应每帧中的新信息,而不会突然丢弃前帧提供的历史上下文。

权重分配过程如下:对于批次中的每个帧,分数通过结合当前帧分数和前一帧分数计算得出,确保两者都能发挥加权作用。这种平衡由参数 α \alpha α控制, α \alpha α决定了当前帧和前一帧分数的影响比例。加权分数定义为: a ~ i = α × a i + ( 1 − α ) × a i − 1 \tilde{a}_{i}=\alpha ×a_{i}+(1-\alpha) ×a_{i-1} a~i=α×ai+(1α)×ai1,其中 a ~ i \tilde{a}_{i} a~i表示当前帧的调整后分数, a i a_{i} ai是当前帧的原始分数, a i − 1 a_{i-1} ai1是前一帧的分数。参数 α \alpha α 0 ≤ α ≤ 1 0 ≤\alpha ≤1 0α1)控制两个分数的权重分配,使模型能够灵活适应视频序列的动态变化,同时兼顾历史上下文。该方法增强了模型在视频帧间进行平滑且符合上下文的行为预测能力。最终,整体分数通过以下公式汇总:

在这里插入图片描述

其中 a i a_{i} ai表示权重分配前当前帧的异常分数,由行为预测、长期记忆、短期记忆、评分队列、异常先验知识和帧摘要共同推导得出。这种结构化方法使模型能够有效区分正常和异常行为,利用时间和上下文线索提高视频序列中异常检测的准确性。

4 Experiments

在这里插入图片描述

在这里插入图片描述

5 Conclusions

在本文中,我们提出了MONITOR来解决在线VAD中的困难,它利用VLM并指示LLM通过一种无需训练的方案来获得异常评分。Monitor是第一个使用大规模模型进行免培训在线VAD的公司,它包括以下主要模块。我们首先从数据集和维基百科中提取异常先验。同时,还维护了一个评分队列,向LLM传授评分规则并帮助识别异常事件。为了更好地捕捉历史信息,我们提出了动态记忆门控模块,在过滤无关信息的同时获得长期记忆和短期记忆。此外,引入了行为预测和动态分析模块来预测异常模式,增强了LLM从上下文中区分异常的能力。最后,将得到的异常分数送入权重分配模块,得到一致性分数。我们评估了UCF-犯罪和XD-暴力的监测。它在标准的VAD数据集上实现了SOTA,并且与弱监督方法相比,它的结果具有竞争力。我们还进行了真实世界的测试,验证了监测器的有效性和泛化能力。

阅读总结

在线检测的点挺好的。

Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐