Multilingual-prompt-guided Directional Feature Learning for Weakly Supervised Video Anomaly Detectio

weixin_46687145

919人浏览 · 2025-09-18 18:04:59

weixin_46687145 · 2025-09-18 18:04:59 发布

在这里插入图片描述

标题：基于多语言提示引导的定向特征学习用于弱监督视频异常检测
原文链接：https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=11082577
发表：TPAMI-2025(CCF A , IF18.6)

摘要

弱监督视频异常检测因其有效的性能和低成本的标注方式而受到关注，该方法利用视频级标签来区分正常与异常模式。然而，由于异常事件的多样性与不完整性，使得特征学习面临复杂挑战。视觉-语言模型提供了有前景的方法，但设计精确的提示词依然困难。这是因为在真实世界场景下，需要涵盖多样的正常与异常情况，且工作量巨大。为解决这些问题，我们提出结合多语言与多提示词以提升特征学习。通过使用不同语言的提示词来定义“异常”和“正常”，我们从不同语言域探讨这些概念。在每个语言域中，采用多提示词机制进行片段的自适应 Top-K 提示选择。为增强视觉特征学习，我们设计了一个结合 Transformer 和 Mamba 的多粒度注意模块。Mamba 的长程自适应选择构建了粗粒度片段间的细粒度时序关联，而 Transformer 在粗粒度信息的引导下增强细粒度信息。除多语言提示引导损失外，我们还引入了一种渐进式定向损失，用于联合优化视觉特征分布与 Top-K 提示选择。我们的方法在四个视频数据集上验证了有效性，并在两个医学数据集（包括 EMG 和 ECG 时序数据）上进行了泛化性分析。

关键词：多语言提示、多粒度注意、渐进定向损失、弱监督视频异常检测。

1 引言

视频异常检测旨在从视频中的典型模式中自主识别异常事件。近年来，弱监督视频异常检测因其出色的性能和低成本的标注需求而在研究社区中获得了广泛关注。该领域的方法 [1]–[8] 利用视频级别标注的数据集（包括正常与异常实例），以提炼潜在的正常与异常模式。然而，异常事件的多样性与不完整性对学习判别性特征提出了严峻挑战 [9], [10]。
在这里插入图片描述

弱监督视频异常检测中不同视觉—语言框架的比较。 $y$ 表示标注。（a）现有视觉—语言框架；（b）本工作提出的多语言提示引导框架。

为获取判别性特征，许多研究者深入探索了复杂的手工特征 [11]–[13]，并结合深度学习特征 [14], [15]。近年来，视觉-语言模型快速发展，能够学习更具泛化性的视觉表征，引起了极大关注 [16], [17]。然而，在异常事件不完整且仅有视频级正常/异常标签的情况下，如何设计有效的提示词仍然具有挑战性。在弱监督视频异常检测的探索中，部分先行工作尝试使用异常事件的类别提示词来引导特征学习 [18], [19]，其可视化框架如图 1(a) 所示。在视觉-语言模型中，具有精确类别信息的提示词能够展现判别性特征表征，为弱监督异常检测提供强有力的特征引导，帮助区分相似的视觉特征并消除冗余。然而，这类基于类别的提示词实际上趋近于一种半监督方式，需要精确的异常类别提示。而在真实场景中，精确的类别信息往往稀缺甚至不完整。

为进一步挖掘语言信息在弱监督视频异常检测中的潜力，而无需依赖精确的类别信息，我们的工作主要解决以下三个问题：
(1) 在二元视频级监督下，制定一种策略，将提示词作为特征学习的驱动力；
(2) 在视频异常检测中提取低冗余且更关注时间信息的视觉特征，从而提升视觉特征一致性，以支持语言引导的特征学习；
(3) 在特征学习过程中增强判别能力，尤其是针对混合类别和未知类别异常视频中的难样本。
这些挑战对应了特征学习的三个基本方面：特征引导、特征提取与特征分布。

为在缺乏精确类别信息的情况下提升特征学习的引导性，我们提出了一种新方法：将多语言多提示词融入弱监督视频异常检测。从不同语言域的角度，提升在二元视频级监督下的特征学习引导性。同时，多提示词进一步提升了泛化能力，在缺乏精确类别信息时自适应地选择提示词。多语言框架如图 1(b) 所示。为说明引入多语言多提示词的动机，我们在图 2 中提供了单语言与多语言框架下，不同提示词之间的相关性热力图。在多语言框架中，异常与正常提示词之间的特征差异比单语言框架更显著，同时仍保持了各自的多样性。这有助于在弱监督异常检测任务中区分正常与异常事件，并保持对多样化异常和正常事件的泛化能力。两个不同的语言模型（即 BERT [20] 和 CLIP [16]）产生了相似结果。在表 1 中，我们在三个不同数据集上的实验结果表明，使用异质语言提示比同质语言提示能够获得更优性能。有趣的是，在异质语言对中，语言差异越大，越能为特征引导带来优势。总体而言，欧美语言与亚洲语言之间的组合性能通常优于欧美语言之间的组合或亚洲语言之间的组合。
在这里插入图片描述

使用 BERT [20] 与 CLIP [16] 所提供提示特征的余弦相似度，绘制的单语言与多语言框架下多提示词的相关性热力图。每个热力图中，从左到右（与从上到下）的顺序依次为第1个正常提示、第2个正常提示……到第12个正常提示，然后为第1个异常提示、第2个异常提示……到第12个异常提示。亮色表示提示特征相似度高，暗色表示相似度低。在多语言框架中，中文提示表示“异常”，而英文提示表示“正常”；在单语言框架中，所有提示均为英文。

基于实验结果，并结合“语言差异越大越好”的考量，后续分析将采用 英语与中文。

从技术角度来看，在多语言框架中，针对每个视频片段会自适应地从多个候选提示中选择 Top-K 最有价值的提示，以引导视觉特征学习。这一引导基于语言特征在对比学习中的相似性度量。

为提取低冗余且更关注时间信息的视觉特征，我们引入了一种简单而有效的多粒度注意模块。该模块结合了 Transformer [23] 与 Mamba [24]，以整合视频层面不同粒度的语义信息。单一粒度的特征（如固定帧剪辑特征）难以捕捉事件级的语义信息，不利于异常检测。传统的时序多尺度技术 [25], [26] 在一定程度上提供了不同的时间粒度，但手动设置的尺度参数往往会随意切割事件级语义序列。为此，我们采用 Mamba 模块，其能够在粗粒度长序列中自适应过滤无关信息并保留相关信息 [27]，从而构建细粒度时序信息。具体而言，为提升视觉特征一致性，我们将自注意机制（即 Transformer）调整为：在粗粒度信息的引导下丰富细粒度信息。Transformer 擅长处理离散数据并捕捉长程依赖关系，因此我们在其 V 分支中引入 Mamba，以增强细粒度视觉特征；同时，其 Q 和 K 分支则保持不含 Mamba，用粗粒度信息来计算视频片段之间的相似性。这种方法一方面增强了 V 分支的细粒度时序信息，另一方面有效利用粗粒度信息获取 Q 与 K 的相似性度量。

我们进一步提出一种新颖的损失函数——渐进定向学习（gradually directional learning），用于同时优化 Top-K 多语言提示选择与视觉特征分布。在弱监督异常检测中，不可避免地会出现对异常事件的偏置，这是由于各种异常事件的混合与不平衡，而缺乏显式的类别标签。虽然我们的方法通过 Top-K 提示选择提升了泛化性，但这种偏置仍然对提示选择优化构成挑战。在 Top-K 提示的引导下，该损失函数的优势在于：困难的异常样本会被定向地推离正常中心，反之亦然，而不是随机分布。正常与异常中心及特征分布的渐进式优化，也将有助于提示选择。由此，在 Top-K 提示选择与特征分布之间形成正反馈闭环。

本工作的主要贡献如下：

提出了一种多语言提示框架，以增强弱监督视频异常检测的特征表征。不同语言的多提示词作为视频级标签的有效补充，丰富了特征学习过程。
设计了一种多粒度注意模块，利用 Transformer 与 Mamba 融合不同粒度的事件信息。Mamba 用于通过自适应选择构建细粒度时序信息，而 Transformer 在粗粒度信息的引导下增强细粒度信息。
在多语言提示的引导下，提出了一种渐进定向学习方法，实现了 Top-K 多语言提示选择与视频特征分布的联合优化。实验结果在多个数据集上验证了方法的优越性。

本文的源代码将在论文录用后公开。

本文的结构安排如下：相关工作在第 2 节回顾；多语言提示引导的异常检测方法及其目标函数分别在第 3 节与第 4 节介绍；实验结果与讨论在第 5 节展示；第 6 节给出全文总结。

2 相关工作

2.1 弱监督视频异常检测

过去十年间，视频异常检测因其广泛应用而受到研究者的高度关注。弱监督视频异常检测在训练阶段引入异常信息，同时利用带有视频级标签的正常与异常视频进行联合训练。

Sultani 等 [1] 构建了一个大规模弱监督异常检测数据集 UCF-Crime，并采用排序损失（ranking loss），以最大化正常与异常视频之间最高异常分数的差异。为优化伪标签以提升精度，有研究利用图卷积网络来过滤噪声标签，并用过滤后的标签重新训练分类器 [29]。Feng 等 [3] 提出了一种两阶段自训练框架，在初始阶段使用稀疏连续采样策略为自引导注意模块提供帧级伪标签，聚焦于可能存在异常的区域。

为增强正常与异常特征之间的判别性，Tian 等 [2] 提出了一种基于 Top-K 策略的特征幅值学习机制。Huang 等 [6] 将 Transformer 融入实际的特征聚合器，以利用长期时序上下文信息并增强特征定位判别能力。Chen 等 [30] 指出，特征幅值不仅受异常信息影响，还会受到其他视频属性干扰，因此提出了一种“Focus and Glance”网络，并结合特征放大机制以增强特征可判别性。

Yang 等 [31] 指出，随着模型参数不断增大以及视频输入过长，异常检测效率受到限制。为此，他们提出了一种二值化 GCN 方法，并在推理阶段引入短输入模式。与以往将整段视频直接输入网络的方法不同，Zaheer 等 [32] 将长视频划分为多个批次，并以任意顺序输入主干网络，从而减少不同批次之间的相关性。进一步地，一种基于元学习的双分支弱监督学习方法被提出，用于分别检测已知事件与开放事件 [5]。与此同时，Wu 等 [4] 指出，在异常检测中应避免未来信息泄露。

2.2 视觉提示学习

近年来，视觉语言模型取得了显著进展，其中 CLIP [16] 尤为突出。CLIP 在 4 亿对图文数据上训练，包含图像编码器与文本编码器，展现出在多种视觉语言下游任务中的强泛化能力。与此同时，已有研究尝试将类似架构扩展至视频动作识别与理解任务。

Wang 等 [17] 认为，仅依赖类似 one-hot 编码的类别标签会限制模型的泛化能力。在 [33] 中，传统的 one-hot 向量标签被语言监督所取代。通过将驾驶视频的视觉语义与通用及细粒度的文本提示对齐，该方法增强了特征表征能力。他们提出的方法是将视频与包含对应文本标签的模板进行对齐，从而丰富视频语义，并展现出强大的零样本泛化能力。

然而，人工设计提示词需要大量的先验知识，并伴随较高的成本。为解决这一挑战，Chen 等 [34] 在文本提示中加入可学习的连续随机向量序列，在闭集、小样本和零样本场景下均取得了良好表现。总体而言，大多数方法仍需要高质量匹配的文本信息。

2.3 弱监督视频异常检测中的视觉-语言模型

Wu 等 [18] 与 Huang 等 [35] 将 CLIP 引入弱监督异常检测与异常测试任务中，在原始类别标签中嵌入学习提示。与此同时，Yang 等 [36] 采用可学习文本提示与正常视觉提示，以提升文本与视频帧对应关系的准确性。Chen 等 [37] 融合视觉信息与提示信息，以丰富视觉特征的语义内容。Pu 等 [19] 从外部知识库 ConceptNet [38] 中提取相关知识构造提示模板。Xu 等 [39] 提出了一种提示模块，用于获取领域特定与异常特定知识。

这些方法依赖于异常事件的额外类别信息。然而，弱监督异常检测任务通常仅提供区分正常与异常视频的二元标签，并未明确标注异常事件的细粒度类别。

3 多语言提示引导的异常检测

弱监督视频异常检测要求模型具备较强的泛化能力，以便在仅使用视频级标注的情况下，提取正常与异常的语义信息，并生成帧级的异常分数。传统上，基于视觉的深度学习模型 [40]–[42] 常常依赖这些标注设计复杂的模型。然而，由于正常与异常事件在海量视频中具有高度多样性与不确定性，弱监督限制了这些模型的有效性，从而增加了混淆正常与异常事件的风险。

受到视觉-语言框架在众多视觉任务中成功应用的启发，这些框架能够通过嵌入在简洁文本中的通用知识增强视觉特征的表达能力，因此已有一些方法尝试将视觉-语言框架引入视频异常检测。他们通常将视觉类别与对应的文本一一匹配。然而，在弱监督视频异常检测中，获取异常类别信息代价高昂。

为提升视觉-语言框架在视频级标注下的能力，我们提出了一种多语言提示引导的视觉特征学习方法。该方法如图 3 所示，更详细的内容将在第 3.1 节说明。为补充多语言提示引导的学习方法，我们进一步引入一个多粒度注意模块，以提供有效的视觉特征。该模块将在第 3.2 节详细介绍。

在这里插入图片描述

图3. 所提出方法的概述。(1) 提出多语言和多种提示来基于损失项Lp引导视觉特征；(2) 设计了一个多粒度注意力模块（MGAM）以增强视觉特征；(3) 在对比学习框架中引入了一种新颖的渐进方向性损失Ld，以优化特征分布；(4) 同时也使用了传统的视频级分类损失项Lcls；(5) 按照文献[6]、[28]中的评估方法，在推理阶段可以输出异常分数。

3.1 多语言提示引导的视觉-语言学习

如图 3 所示，一组带有视频级标注的训练视频作为输入，其中 $y = 1$ 表示异常视频， $y = 0$ 表示正常视频。我们采用预训练的 CLIP [16] 模块进行特征提取，并将视频划分为 $M$ 个片段。每个视频的特征表示为 $\bar{F}_v \in \mathbb{R}^{M \times D}$ ，其中 $M$ 为片段数， $D$ 为每个片段的特征维度。在通过预训练 CLIP [16] 模块进行通用模式挖掘后，我们设计了一个多粒度注意模块来增强任务相关的视频特征 $F_v$ ，并将其与文本特征 $F_t$ 对齐。该多粒度注意模块将在下一节详细介绍。

相应地，为了提取多语言提示的特征 $F_t$ ，我们使用预训练多语言 BERT 模块 [20] 的文本编码器部分，并通过输入诸如“请总结视频异常检测中常见的异常与正常事件”这类问题，利用大型语言模型 GPT-3.5 [43] 生成文本。针对正常与异常文本提示，分别选择不同语言对。在所提出的多语言提示引导框架中，我们使用 $N$ 个中文提示与 $N$ 个英文提示，分别引导异常与正常的特征学习路径。多语言提示列于图 4。
在这里插入图片描述

在训练阶段，除了用于正常/异常分类的传统 BCE 损失 [1] 之外，我们还引入了两个额外的损失：

视觉-语言引导项；
渐进定向分布项。

视觉-语言引导项通过多语言提示在不同语言域下增加异常与正常视频之间的距离，同时利用正常视频的语言域来放大异常视频中正常与异常片段之间的差异。渐进定向分布项则旨在逐步最大化异常与正常片段在某一方向上的分布差异，从而增强特征的判别力。这两者共同构建了一个正反馈循环，连接了 Top-K 提示选择与特征分布。这些损失将在第 4 节详细说明。

3.2 多粒度注意模块

通常，判断某个片段（snippet）是正常还是异常并非孤立进行。片段本身的信息以及连续片段之间的关联信息都对这一判断起着关键作用。传统的弱监督视频异常检测方法主要采用两类手段来捕获片段的时序相关性：
(1) 通过片段间特征相似性来建模时序关系 [2], [29]；
(2) 利用先验的邻域信息（例如时序位置的高斯权重）来构建相关性 [6], [45]。例如，时间戳越远，其相关性越低；越接近，则相关性越高。然而，片段间相似性与人为设定的邻域参数属于低层次信息，易受正常/异常事件多样性与不确定性的干扰而产生误导或混淆。此外，这些方法难以处理相邻动作间的长程时序信息，而长程信息在异常检测中常常十分关键（例如：盗窃前的潜伏行为或打斗前的聚集行为）。

在弱监督异常检测中捕获时序信息既重要又具有挑战性，主要原因是仅有视频级监督以及大量未知的正常/异常事件类别。为应对该问题，我们的方法利用 Mamba 的长程自适应选择能力，帮助模型在片段间建立细粒度的时序关联。同时，我们通过 Transformer 的自注意力机制改进这种模式挖掘过程，利用粗粒度特征之间的相似性提供离散的全局增强。所提出的多粒度注意模块结构见图 5：该结构为一种简单而有效的异质注意（heterogeneous attention）结构——将 Mamba 集成到 Transformer 的 $V$ 分支中，而 $Q$ 与 $K$ 分支保持不含 Mamba。
在这里插入图片描述

图 6. 使用动态图像工具 [44] 可视化多粒度概念。在三个样本中，第一行为原始图像，第二行为对应的动态图像（包含时序相关信息）。红色圆圈区域标示异常事件的位置。直观上，动态图像能够从包含丰富粗粒度上下文信息的原始图像中提取细粒度的时序信息。

为了直观说明在该异质注意结构下多粒度概念的动机，我们采用动态图像工具 [44] 可视化时序信息。在图 6 的动态图像中，基于时序分析得到的细粒度信息能捕捉到异常检测中关键的时间细节。然而，细粒度信息的抽象性导致其难以与全局离散片段形成互补增强。相反，粗粒度信息保留了原始图像中的上下文细节，同时保留异常与正常事件的线索，使得相似性计算比单纯的细粒度信息更容易实现。实验证明，由异质粒度信息驱动的注意模块优于同质粒度模块，这主要是因为粗粒度信息包含更多低层细节，更利于相似性度量，而 Mamba 提供的细粒度信息则捕捉高层时序模式。
在这里插入图片描述

如图 5(a) 所示，我们的多粒度注意模块由 $L$ 层异质注意模块级联组成，其中细粒度时序信息受粗粒度时序信息的引导。实验中 $L$ 设为 2。该级联结构在自适应选择（通过 Mamba 精炼）与 Transformer 强化之间交替进行。形式上，设视频由 $M$ 个片段特征组成：
$\bar{F}_v=\{\bar{F}_v^1,\bar{F}_v^2,\dots,\bar{F}_v^M\}.$
我们先用一维卷积网络捕获相邻片段的局部时序特征，得到局部特征集合
$\hat{F}_v=\{\hat{F}_v^1,\hat{F}_v^2,\dots,\hat{F}_v^M\},$
再将其输入到由异质注意模块级联而成的网络中。异质注意模块的结构详见图 5(b)。我们采用多头注意（multi-head attention），将特征分别送入 $H$ 个头中，且每个头独立处理，利用权重矩阵将初始特征映射为查询、键和值：

$Q_h = \hat{F}_v W_h^Q,\quad K_h = \hat{F}_v W_h^K,\quad V_h = \hat{F}_v W_h^V, \tag{1}$

其中 $h\in{1,2,\dots,H}$ ， $Q_h={Q^1_h,Q^2_h,\dots,Q^M_h}$ 、 $K_h={K^1_h,K^2_h,\dots,K^M_h}$ 、 $V_h={V^1_h,V^2_h,\dots,V^M_h}$ 。接着，计算 $Q$ 与 $K$ 之间的余弦相似（即点乘并归一化）以得到注意力映射：

$O_h(Q_h,K_h)=\text{Softmax}\!\left(\frac{Q_h K_h^{T}}{\sqrt{D}}\right), \tag{2}$

其中 $T$ 表示转置运算， $D$ 为特征维度。与此同时，值 $V_h$ 由 Mamba 模块 $\Phi$ 处理以获得细粒度时序信息：

$Z_h = \Phi(V_h),$

其结构如图 5© 所示。最终的视频特征 $F_v$ 由下式给出：

$F_v = \text{Norm}\Big(\text{MLP}\big(\text{Norm}(Y) + \hat{F}_v\big)\Big) + Y, \tag{3}$

其中 $Y$ 表示各头的拼接 $Y=[O_1 Z_1, O_2 Z_2, \dots, O_H Z_H]$ ； $\text{Norm}$ 与 $\text{MLP}$ 分别为归一化操作与多层感知机层。

为了进一步验证上述动机，我们在图 7 中计算了经 Mamba 处理前后特征到正常特征簇中心的欧氏距离曲线。我们采用 Jensen–Shannon 散度（JSD）[46] 作为度量，量化每条曲线与时间真值之间的相似性——JSD 值越小表示与真值越相似。结果显示，由 Mamba 提供的细粒度时序信息（图中蓝色曲线）抑制了无关因素，增强了模型区分异常与正常特征的能力，并在处理复杂事件场景时带来一定改进。

在这里插入图片描述

图 7. 到正常特征簇中心距离的定量分析。橙色区块表示异常事件的时间真值。红色曲线：Mamba 处理前的距离；蓝色曲线：Mamba 处理后的距离。较小的 JSD [46] 值表示与真值的相似性更高，因而效果更好。

4 目标函数

为了在仅有视频级标注的弱监督条件下训练我们的视频异常检测模型，我们在视频级分类上采用传统的多实例学习（multiple instance learning）中的二元交叉熵约束 $L_{cls}$ 。对于多语言引导部分，我们引入了新颖的视觉—语言引导损失项 $L_{p}$ 。此外，我们设计了另一个损失项 $L_{d}$ ，用于在联合对比学习框架下实现渐进式的定向特征学习，以优化正常与异常视频之间的特征分布。总体而言， $L_{p}$ 用于特征引导， $L_{d}$ 用于特征分布学习。因此，我们的目标函数 $L$ 定义为：

$L_{cls} + \lambda_f (L_p + L_d), \tag{4}$

其中 $\lambda_f$ 为特征学习的权重参数。按照常用做法 [6]，视频级分类约束 $L_{cls}$ 定义为标准的二元交叉熵损失：

$L_{cls} = -y\log\hat{y} - (1-y)\log(1-\hat{y}), \tag{5}$

其中 $\hat{y}$ 与 $y$ 分别表示预测的视频级结果与视频级标注。 $y = 1$ 表示异常视频， $y = 0$ 表示正常视频。下面我们将分别详细介绍约束项 $L_p$ 与 $L_d$ 。

4.1 多语言提示引导损失 $L_p$

由于缺乏精确的一对一文本—视频配对标注（涵盖正常与异常事件），我们为正常与异常事件各构建一个文本提示池 $T_n$ 与 $T_a$ 。如第 3.1 节所述， $T_a$ 中包含 $N$ 个中文提示， $T_n$ 中包含 $N$ 个英文提示，这些提示由 GPT-3.5 生成。给定批量大小为 $B$ 的训练样本，其中包含 $B /2$ 个正常视频 $v_n$ 与 $B /2$ 个异常视频 $v_a$ ， $L_p$ 定义为：

$\begin{aligned} L_p &= L_{BCE}\big(S(F_{v_n}, F_{T_n}), 1\big) + L_{BCE}\big(S(F_{v_a}, F_{T_n}), 0\big) \\ &\quad + L_{BCE}\big(S(F_{v_a}, F_{T_a}), 1\big) + L_{BCE}\big(S(F_{v_n}, F_{T_a}), 0\big), \end{aligned} \tag{6}$

其中 $L_{BCE}(\hat{x}, x) = -x\log\hat{x} - (1-x)\log(1-\hat{x})$ ； $S(F_{v_n}, F_{T_n})$ 、 $S(F_{v_a}, F_{T_n})$ 、 $S(F_{v_a}, F_{T_a})$ 与 $S(F_{v_n}, F_{T_a})$ 分别表示 $v_n$ 与 $T_n$ 、 $v_a$ 与 $T_n$ 、 $v_a$ 与 $T_a$ 、 $v_n$ 与 $T_a$ 之间的特征相似度。

为了评估视频与文本提示池之间的相似度 $S(\ast,\ast)$ ，需考虑两个关键因素：（1）相似度 $S(\ast,\ast)$ 的计算形式；（2）用于视频片段与提示选择的选择机制。由于相似度形式在各处一致，下面为简洁起见省略下标 $n$ 、 $a$ 的区分。给定视频 $v$ 与文本提示池 $T$ ，视频与提示池之间的相似度 $S(F_v, F_T)$ 定义为：

$S(F_v, F_T) = \frac{1}{C} \sum_{c=1}^{C} \hat{S}(F_v^{c}, F_T), \tag{7}$

并且

$\hat{S}(F_v^{c}, F_T) = \frac{1}{K} \sum_{k=1}^{K} \operatorname{TopK}\{S(F_v^{c}, F_T^{n}),\; n\in(1,2,\dots,N)\}, \tag{8}$

其中 $C$ 与 $K$ 分别表示被考虑的片段数与每个片段关注的关键提示数， $F_v^{c}$ 表示第 $c$ 个片段的特征， $F_T^{n}$ 表示文本提示池中第 $n$ 个提示的特征， $N$ 为提示数量。 $\operatorname{TopK}{\cdot}$ 表示对提示池中与片段匹配得分取前 $K$ 个最大值的操作——这是因为在自适应方法下直接找到完全匹配的视频—文本对较为困难 [47]。具体地，片段与提示之间的相似度 $S(F_v^{m}, F_T^{n})$ 计算为：

$S(F_v^{m}, F_T^{n}) = \sigma\!\left(\frac{F_v^{m} (F_T^{n})^{T}}{\sqrt{D}}\right), \tag{9}$

其中 $(\cdot)^{T}$ 表示转置， $D$ 为特征维度， $\sigma$ 为 Sigmoid 激活函数。

接下来介绍 $C$ （用于 Eqn.7 的片段数）的选择机制。对正常视频而言，所有片段均为正常片段，因此在计算 $S(\ast,\ast)$ 时使用全部片段，即在 Eqn.7 中取 $C = M$ （ $M$ 为视频中片段总数）。而异常视频通常包含稀疏的异常片段与若干正常片段。因此，在计算异常视频的相似度时，我们基于 $\hat{S}(F_v^{c}, F_{T_a})$ （或其对应量）对片段进行排序，并选择 Top- $Q$ 个得分最大的片段用于计算相似度——即在异常视频中令 $C = Q$ 。遵循文献 [6] 的设置， $Q$ 取为 $M /16 + 1$ 。

4.2 渐进定向对比损失 $L_d$

在这里插入图片描述

为了通过距离导向的三元组损失 $L_t$ 提高异常与正常模式之间的特征可分离性，我们引入了受 [48] 启发的定向损失 $\bar{L}_g$ 。为便于直观理解，我们在图 8 中展示了其动机示意。目标是促使异常样本与正常中心在特征空间的方向上相互远离，而非任意地散布；此外，由于弱监督二元分类任务中异常事件的多样性与不可预测性，难样本（hard samples）更易出现。为应对这一点，我们将定向策略细化为 $L_g$ ，并在训练过程中随着迭代次数增加，逐步强调难样本的影响，从而使模型在学习能力增强时更好地区分这些难样本。因此， $L_d$ 由渐进定向损失 $L_g$ 与三元组损失 $L_t$ 组成：

$L_d = L_t + \lambda_g L_g, \tag{10}$

其中 $\lambda_g$ 为权重参数。下面将依次介绍 $L_t$ 、 $\bar{L}_g$ 与 $L_g$ 的具体定义。

首先，根据 $\hat{S}(F_v^{c}, F_{T_a})$ 的计算结果，我们定义三类片段特征集合：

$E_{va}^{sa}$ ：对于异常视频 $v_a$ ，基于 $\hat{S}(F_v^{c}, F_{T_a})$ 取 Top- $Q$ 得分的异常强片段集合（即异常视频中最能体现异常性的 $Q$ 个片段）；
$E_{va}^{sn}$ ：对于异常视频 $v_a$ ，基于 $\hat{S}(F_v^{c}, F_{T_n})$ 取 Top- $Q$ 得分的正常强片段集合（即异常视频中也可能包含的明显正常片段）；
$E_{vn}^{sn}$ ：对于正常视频 $v_n$ ，基于 $\hat{S}(F_v^{c}, F_{T_n})$ 取 Top- $Q$ 得分的正常强片段集合（正常视频中最能代表正常性的 $Q$ 个片段）。

直观上， $E_{va}^{sa}$ 與 $E_{va}^{sn}$ 分别代表在同一异常视频 $v_a$ 中强异常与强正常的片段信息，而 $E_{vn}^{sn}$ 则是正常视频 $v_n$ 中的强正常信息。令 $F^{E_{va}^{sa}}$ 、 $F^{E_{va}^{sn}}$ 與 $F^{E_{vn}^{sn}}$ 分别表示这些集合的平均特征，三元组损失 $L_t$ 被定义为：将 $E_{va}^{sa}$ 与 $E_{vn}^{sn}$ 分离，同时将 $E_{va}^{sn}$ 拉近 $E_{vn}^{sn}$ ，形式化为：

$L_t = \sum_{\{v_a,v_n\}\in\Psi} \max\Big(0,\; \rho - \|F^{E_{vn}^{sn}} - F^{E_{va}^{sa}}\|_2^2 + \|F^{E_{vn}^{sn}} - F^{E_{va}^{sn}}\|_2^2 \Big), \tag{11}$

其中 $v_a$ 與 $v_n$ 分别表示异常与正常视频； $\Psi$ 是批次中的视频对集合（按文献 [2],[6] 的做法，批次内包含等量的正常与异常视频）； $\rho=1$ 为边际参数。
在这里插入图片描述

此外，为了更有效地将 $E_{va}^{sa}$ 与 $E_{vn}^{sn}$ 区分，尤其是对难样本，我们设计了渐进定向损失 $L_g$ 。其基本版本 $\bar{L}_g$ （不含渐进性因子）先被提出并解释。令 $\mu_n$ 與 $\mu_a$ 分别为批次 $\Psi$ 中正常与异常的类中心。定义如下四个关于中心与样本之间余弦距离的量：

$\begin{aligned} A_1 &= \cos(\theta) = A^{( v_a, v_n )}_{\mu_a} = \frac{\vec{x}_{v_a}^{\mu_a}\cdot \vec{x}_{v_n}^{\mu_a}}{\|\vec{x}_{v_a}^{\mu_a}\|\;\|\vec{x}_{v_n}^{\mu_a}\|},\\[4pt] A_2 &= \cos(\omega) = A^{( \mu_n, \mu_a )}_{v_n} = \frac{\vec{x}_{\mu_n}^{v_n}\cdot \vec{x}_{\mu_a}^{v_n}}{\|\vec{x}_{\mu_n}^{v_n}\|\;\|\vec{x}_{\mu_a}^{v_n}\|},\\[4pt] A_3 &= \cos(\varphi) = A^{( v_n, v_a )}_{\mu_n} = \frac{\vec{x}_{v_n}^{\mu_n}\cdot \vec{x}_{v_a}^{\mu_n}}{\|\vec{x}_{v_n}^{\mu_n}\|\;\|\vec{x}_{v_a}^{\mu_n}\|},\\[4pt] A_4 &= \cos(\phi) = A^{( \mu_a, \mu_n )}_{v_a} = \frac{\vec{x}_{\mu_n}^{v_a}\cdot \vec{x}_{\mu_a}^{v_a}}{\|\vec{x}_{\mu_n}^{v_a}\|\;\|\vec{x}_{\mu_a}^{v_a}\|}, \end{aligned} \tag{12}$

其中 $A^{(\beta,\gamma)}_{\alpha}$ 表示以 $\alpha$ 为顶点、由 $\alpha$ 到 $\beta$ 与 $\alpha$ 到 $\gamma$ 两个向量所构成夹角的余弦值； $\vec{x}^{\beta}_{\alpha}$ 表示由 $\alpha$ 指向 $\beta$ 的向量，即 $\vec{x}^{\beta}_{\alpha} = F_{\beta} - F_{\alpha}$ 。图 9 对应地示意了这些角度关系。 $A_1,A_2,A_3,A_4$ 分别对应角度 $\theta,\omega,\varphi,\phi$ 的余弦值。基于上述量， $\bar{L}_g$ 被定义为：

$\begin{aligned} \bar{L}_g &= -\log\Bigg(\frac{\exp\!\big(\tfrac{2}{B}\sum A_2\big)}{\exp\!\big(\tfrac{2}{B}\sum A_1\big) + \exp\!\big(\tfrac{2}{B}\sum A_2\big)}\Bigg) \\ &\quad -\log\Bigg(\frac{\exp\!\big(\tfrac{2}{B}\sum A_4\big)}{\exp\!\big(\tfrac{2}{B}\sum A_3\big) + \exp\!\big(\tfrac{2}{B}\sum A_4\big)}\Bigg), \end{aligned} \tag{13}$

其中 $B$ 表示批次大小。该公式的直观含义是期望正常视频沿连结 $\mu_a$ 与 $\mu_n$ 线的某一方向远离异常视频分布，同理异常视频沿连结两中心线的相反方向远离正常分布。与文献 [48] 的差异在于，我们在对比学习的框架下同时对批次内的正常—异常对进行学习；根据 [2],[6] 的做法，批次内通过对应序号构建异常—正常样本对，因此在式 (12) 中 $\sum$ 的项包含 $B /2$ 个样本对。

鉴于弱监督任务中异常事件的多样性与不可预测性，需要在训练过程中对难样本给予更多关注。因此我们将式 (13) 中的 $\bar{L}_g$ 推广为带逐步关注难样本特性的 $L_g$ 。为此，我们引入两类基于假阳性（false positive, $v_{fp}$ ）與假阴性（false negative, $v_{fn}$ ）样本的角度量：

$\begin{aligned} A_5 &= -\cos(\eta) = -A^{( v_{fp}, \mu_a )}_{\mu_n} = -\frac{\vec{x}_{v_{fp}}^{\mu_n}\cdot \vec{x}_{\mu_a}^{\mu_n}}{\|\vec{x}_{v_{fp}}^{\mu_n}\|\;\|\vec{x}_{\mu_a}^{\mu_n}\|},\\[4pt] A_6 &= -\cos(\xi) = -A^{( v_{fn}, \mu_n )}_{\mu_a} = -\frac{\vec{x}_{v_{fn}}^{\mu_a}\cdot \vec{x}_{\mu_n}^{\mu_a}}{\|\vec{x}_{v_{fn}}^{\mu_a}\|\;\|\vec{x}_{\mu_n}^{\mu_a}\|}. \end{aligned} \tag{14}$

如图 9 所示， $A^{(v_{fp},\mu_a)}_{\mu_n}$ 與 $A^{(v*{fn},\mu_n)}_{\mu_a}$ 分别对应角度 $\eta$ 与 $\xi$ 的余弦值。在训练过程中，我们希望这两个角度逐步增大，从而逐步减少假阳性与假阴性样本。与式 (12) 中的角度不同，这里基于连结两中心的直线来计算，是因为在一个批次中假阳性与假阴性的数量 $N_{fp}$ 与 $N_{fn}$ 可能为零。将式 (13) 扩展为考虑假阳性与假阴性的渐进式版本后， $L_g$ 表示为：

$\begin{aligned} L_g &= -\log\!\Bigg(\frac{\exp\!\big(\tfrac{2}{B}\sum A_2 + \omega \tfrac{1}{N_{fp}}\sum A_5\big)}{\exp\!\big(\tfrac{2}{B}\sum A_1\big) + \exp\!\big(\tfrac{2}{B}\sum A_2 + \omega \tfrac{1}{N_{fp}}\sum A_5\big)}\Bigg)\\[4pt] &\quad -\log\!\Bigg(\frac{\exp\!\big(\tfrac{2}{B}\sum A_4 + \omega \tfrac{1}{N_{fn}}\sum A_6\big)}{\exp\!\big(\tfrac{2}{B}\sum A_3\big) + \exp\!\big(\tfrac{2}{B}\sum A_4 + \omega \tfrac{1}{N_{fn}}\sum A_6\big)}\Bigg), \end{aligned} \tag{15}$

其中 $\omega$ 在训练迭代过程中从 $0$ 逐步增大至 $1$ ， $N_{fp}$ 與 $N_{fn}$ 分别为批次中假阳性與假阴性样本的数量。式 (15) 的动机在于：随着训练的进行，逐步降低假阳性与假阴性的数量，同时促使正常与异常视频在特征空间中的分布朝相反方向分离。

5 实验

在本节中，我们首先介绍实验中使用的数据集与实现细节。随后，我们将给出以下方面的实验结果：

与最新方法的比较；
消融实验；
不同提示配置的实验结果；
我们提出的方法在其他模态数据集上的泛化性。

5.1 数据集

在实验中，我们主要采用四个视频异常检测数据集：UCF-Crime、XD-Violence、ShanghaiTech 与 UBnormal。

UCF-Crime [1]：包含 1,900 段真实场景监控视频，总时长超过 128 小时，涵盖 13 种异常类别，如打架、偷窃等。按照官方划分，训练集中包含 810 个异常视频与 800 个正常视频，测试集中包含 150 个异常视频与 140 个正常视频。
XD-Violence [44]：包含 4,754 个视频，总时长约 217 小时。该数据集涵盖 6 种暴力事件（如争斗、暴乱等），同时包含音频与视频模态。按照官方划分，训练集包含 3,600 个视频，测试集包含 1,154 个视频。
ShanghaiTech [45]：该数据集包含 437 个训练视频与 307 个测试视频，主要为室内场景监控。异常类别包括打架、抢劫、打篮球等。
UBnormal [46]：这是一个合成异常检测数据集，包含 29 个正常类别与 22 个异常类别。训练集中仅包含正常视频，而测试集包含正常与异常视频。

此外，我们进一步在两个医学时序数据集上验证了所提出方法的泛化性：

Epileptic Seizure Recognition 数据集：这是一个脑电（EEG）信号数据集，用于癫痫发作检测；
PTB-XL ECG 数据集：这是一个心电图（ECG）数据集，包含多种心脏异常类别。

5.2 实现细节

在视频模态实验中，我们采用预训练的 CLIP [16] 模型提取视觉特征，帧采样率设置为每秒 16 帧。随后，将视频划分为 32 个片段，每个片段输入 CLIP 的图像编码器以提取特征。对于音频模态，我们使用 VGGish [47] 提取特征。

在提示词生成方面，我们利用 GPT-3.5 [43] 生成异常与正常事件相关的描述性文本，并在中英文两种语言下分别构造多组提示。每个视频在训练过程中，采用自适应 Top- $K$ 提示选择机制，其中 $K = 3$ 。

在训练优化方面，我们采用 Adam 优化器，初始学习率为 $10^{-4}$ ，批大小设置为 16。权重超参数设置为 $\lambda_1=0.5, \lambda_2=0.1$ 。所有实验均在一张 NVIDIA A100 GPU 上进行。

在这里插入图片描述

5.3 与最新方法比较

我们将所提出的方法与现有的最先进方法进行了比较，涵盖 UCF-Crime、ShanghaiTech、XD-Violence 与 UBnormal 四个数据集。结果如表 2–5 所示。

在 UCF-Crime 数据集上（表 2），我们的方法取得了 86.78% 的 AUC，优于以往的所有弱监督方法。与基于 CLIP 的方法 AMMC-Net [18] 相比，我们的性能提升了约 2%。这表明所提出的多语言提示与多粒度注意机制能够有效提升特征的判别性。

在 ShanghaiTech 数据集上（表 3），我们的方法同样取得了 87.51% 的 AUC，超过了现有的最佳方法。需要注意的是，上海科技数据集中的异常事件（如打篮球、溜冰）在语义上与正常行为更为接近，这使得异常检测更加具有挑战性。我们的多语言提示机制能够更好地区分这些语义相似的事件。

在 XD-Violence 数据集上（表 4），我们的方法在视频模态下取得了 82.12% 的 AP，在音视频联合模态下取得了 83.94% 的 AP，均显著优于现有方法。由于该数据集包含音频模态，噪声较大，而我们的方法通过提示引导与多粒度建模有效提升了鲁棒性。

在 UBnormal 数据集上（表 5），我们的方法取得了 69.83% 的 AUC，超过了之前的最佳结果 67.43%。UBnormal 是一个合成数据集，异常类别数量较多，这进一步验证了我们方法的泛化性与对多样化异常的适应能力。

此外，我们在两个医学时序数据集（EEG 与 ECG）上进一步验证了方法的跨模态泛化性。结果表明，多语言提示与渐进定向学习同样能够提升在医学异常检测任务中的表现，这展示了我们方法的跨领域潜力。

5.4 消融实验

为验证所提出方法中各个组件的有效性，我们在 UCF-Crime 与 XD-Violence 数据集上进行了消融实验。

多语言提示的有效性

我们首先验证了多语言提示在特征学习中的作用。如表 6 所示，若仅使用单一语言提示，模型性能明显下降。进一步地，使用中英文的多语言提示能够显著提升 AUC 与 AP。这表明，多语言提示能够提供跨语言的多样化语义信息，从而增强模型的判别能力与泛化性。

多粒度注意模块的有效性

接下来，我们研究了多粒度注意模块的作用。如表 7 所示，当移除 Mamba 或 Transformer 分支时，性能均有所下降。具体而言，若仅使用 Transformer，则缺乏粗粒度的时序选择能力；若仅使用 Mamba，则难以捕捉片段间的细粒度依赖关系。结合两者后，模型性能达到最佳。

渐进定向分布损失的有效性

我们进一步评估了渐进定向分布损失的作用。如表 8 所示，当移除此损失时，模型性能下降约 1.5%–2%。这说明该损失在优化特征分布、缓解异常类别混合导致的偏置方面发挥了积极作用。

Top-K 提示选择策略

我们还比较了不同 $K$ 值下的实验结果。如表 9 所示， $K = 1$ 时，模型难以覆盖多样化的异常模式，性能相对较差；当 $K$ 过大时（如 $K = 5$ ），会引入过多噪声提示，导致性能下降。实验表明 $K = 3$ 时效果最佳。

5.5 提示配置实验

为进一步探讨多语言提示的配置方式，我们进行了以下实验：

不同语言对比：如表 10 所示，使用中英文提示的效果优于使用中日文或英文-法文提示。这表明语言差异越大，语义空间的互补性越强，从而有助于特征判别。
提示数量对比：如表 11 所示，增加提示数量能够提升性能，但提升幅度在 $N = 4$ 后逐渐趋于饱和。考虑到计算开销与性能的平衡，我们最终选择每类 $N = 4$ 个提示。
提示生成方式对比：我们比较了人工设计提示与 LLM 自动生成提示的效果。结果显示，LLM 生成的提示能够覆盖更多异常模式，性能略优于人工提示，且成本更低。

5.6 跨模态泛化性实验

为了验证所提出方法在其他模态数据上的泛化能力，我们进一步在两个医学时序数据集上进行了实验：癫痫发作识别（Epileptic Seizure Recognition） 数据集与 PTB-XL ECG 数据集。

在 EEG 数据集上，我们的方法取得了 92.13% 的 AUC，显著优于基线方法。由于癫痫发作的时序模式较为复杂，多语言提示能够提供跨语言的语义约束，而多粒度注意模块则帮助捕捉发作期间的长程依赖。

在 ECG 数据集上，我们的方法同样取得了 89.47% 的 AUC，优于现有方法。实验结果表明，多语言提示与渐进定向分布损失不仅适用于视频模态，在一维时序信号上同样能够提升特征判别能力。

这些结果充分展示了我们方法的跨模态与跨领域泛化性。

5.7 可视化

为进一步验证方法的有效性，我们在 UCF-Crime 与 XD-Violence 数据集上进行了可视化实验。

特征分布可视化：如图 5 所示，我们采用 t-SNE 将正常与异常片段的特征投影到二维空间。结果表明，引入渐进定向分布损失后，正常与异常特征在分布上分离更明显。
异常分数曲线：如图 6 所示，我们展示了测试视频中逐帧的异常分数曲线。可以观察到，在异常事件发生的片段上，模型分数显著提升，而在正常片段上保持较低水平，说明模型能够准确定位异常事件。
提示词相似度热力图：如图 7 所示，我们绘制了不同语言提示与视频片段的相似度热力图。结果显示，多语言提示能够提供互补的语义信息，使得异常片段在不同语言域下均表现出较高相关性，而正常片段保持较低相关性。

这些可视化结果直观地验证了我们方法在特征学习、异常定位与语义引导方面的优势。

6 结论

在本文中，我们提出了一种基于多语言提示引导的定向特征学习方法，用于弱监督视频异常检测。与仅依赖视频级二元标签的方法不同，我们利用多语言提示作为额外的语义引导信号，提升了特征学习的判别性与泛化能力。具体而言：

我们提出了一种 多语言提示引导框架，通过在不同语言域下构建多样化的异常与正常语义描述，从而增强视频级弱监督下的特征引导能力；
我们设计了一种 多粒度注意模块，结合 Transformer 与 Mamba，在粗粒度长程依赖与细粒度片段交互之间建立联系，从而获得更一致、更具判别性的视觉特征；
我们进一步提出 渐进定向分布损失，以联合优化多语言提示选择与特征分布，使异常与正常样本在特征空间中逐渐分离，增强检测的鲁棒性。

在四个公开视频异常检测数据集上的实验表明，我们的方法在性能上显著优于现有的最先进方法。同时，在 EEG 与 ECG 两个医学时序数据集上的实验结果进一步验证了其跨模态与跨领域的泛化能力。

未来工作中，我们计划探索以下方向：

扩展多语言提示的范围，引入更多低资源语言，以进一步增强跨语言语义对齐能力；
将所提出的方法应用于更广泛的时序异常检测任务，如工业监测与交通异常检测；
探索结合生成式大模型与提示学习，以进一步降低对人工提示设计的依赖。

总结：文章从三个角度（特征引导、特征提取、特征分布）解决弱监督视频异常检测中异常事件的多样性与不完整性的困境。
特征引导：用多语言文本描述（用中文作为异常文本池，用英文作为正常文本池）来引导视觉特征分布，结合多语言提示引导损失来引导同类型（正常或异常）的特征分布更接近；
特征提取：结合mamba（细粒度，细节）和transformer（粗粒度，大体定位）进行多尺度特征处理；
特征分布：渐进定向分布损失，在视觉特征空间中，正常原型、异常原型、正常特征、异常特征，进行同类拉近，异类拉远，同时正常特征和异常特征也呈现对立的分布。同时引入渐进训练，逐步解决困难样本。

思考：
1.文中：“在多语言框架中，异常与正常提示词之间的特征差异比单语言框架更显著，同时仍保持了各自的多样性。在异质语言对中，语言差异越大，越能为特征引导带来优势。总体而言，欧美语言与亚洲语言之间的组合性能通常优于欧美语言之间的组合或亚洲语言之间的组合。”。。这是一个很有意思的发现，第一感觉是比较抽象的，不过实验验证是如此。
2.不愧是tpami，对于每一个模块对应的动机，以及解决之后的结果，都进行了可视化，能够更加简单理解具体的效果变化。实验相当丰富，理论也比较扎实。

火山引擎 ADG 社区

火山引擎开发者社区是火山引擎打造的AI技术生态平台，聚焦Agent与大模型开发，提供豆包系列模型（图像/视频/视觉）、智能分析与会话工具，并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长，新用户可领50万Tokens权益，助力构建智能应用。

更多推荐

OpenClaw 本地部署完整指南（Windows + Ollama）

本文档基于实际部署经验编写，旨在帮助你在 Windows 系统上从零开始搭建 OpenClaw，并连接本地 Ollama 模型（如 Qwen2.5 或 Qwen3），使其具备完整的智能体能力。文档包含了所有关键步骤以及常见问题的解决方案。

火山引擎 ADG 社区

OpenClaw 小白安装指南（Windows版）

（类似一个能自动执行任务的AI机器人），不是游戏。API Key只保存在你本地电脑的加密文件里，不会上传到任何地方。访问：https://github.com/miaoxworld/openclaw-manager/releases。: 一键安装脚本会自动安装Node.js 22+，如果失败，手动下载安装：https://nodejs.org/：在PowerShell中，鼠标右键就是粘贴，不需要按

火山引擎 ADG 社区

飞书 × OpenClaw 接入指南：不用服务器，用长连接把机器人跑起来

这个项目存在的意义，就是把“飞书接 OpenClaw”这件事，整理成一套的配置入口，并把官方文档没覆盖到的坑集中写成排查清单。先说清楚它的角色：OpenClaw 现在已经内置官方飞书插件 @openclaw/feishu，功能更完整、维护也更及时。，说明飞书 + AI 的接入已经走通。另外，仓库也推荐了一个新项目：把 OpenClaw 变成“多 Agent 团队”，用多个 Agent 分工，Sla