Cross-Modal Fusion and Attention Mechanism for Weakly Supervised Video Anomaly Detection
近年来,弱监督视频异常检测(WS-VAD)已成为一个新兴的研究方向,其仅利用视频级标签来识别视频中诸如暴力和裸露等异常事件。然而,这项任务面临着诸多挑战,包括处理不平衡的模态信息以及持续区分正常特征与异常特征。在本文中,我们针对这些挑战,提出了一种多模态弱监督视频异常检测框架,以精准检测暴力、裸露等异常事件。在该框架中,我们引入了一种名为跨模态融合适配器(CFA)的新型融合机制,它能动态选择并增强

https://openaccess.thecvf.com/content/CVPR2024W/MULA/papers/Ghadiya_Cross-Modal_Fusion_and_Attention_Mechanism_for_Weakly_Supervised_Video_Anomaly_CVPRW_2024_paper.pdf
CVPRW2024
Abstract
近年来,弱监督视频异常检测(WS-VAD)已成为一个新兴的研究方向,其仅利用视频级标签来识别视频中诸如暴力和裸露等异常事件。然而,这项任务面临着诸多挑战,包括处理不平衡的模态信息以及持续区分正常特征与异常特征。在本文中,我们针对这些挑战,提出了一种多模态弱监督视频异常检测框架,以精准检测暴力、裸露等异常事件。在该框架中,我们引入了一种名为跨模态融合适配器(CFA)的新型融合机制,它能动态选择并增强与视觉模态高度相关的音视频特征。此外,我们还引入了双曲洛伦兹图注意力(HLGAtt),以有效捕捉正常表征与异常表征之间的层次关系,从而提高特征分离的准确性。通过大量实验,我们证明了所提出的模型在暴力和裸露检测的基准数据集上取得了最先进的结果。
1. Introduction
在现代科技时代,孩子们越来越多地转向在线平台进行学习、娱乐和与他人交流。然而,这种便捷的访问也带来了担忧,即他们可能会接触到有害和不合适的内容,特别是包含暴力和裸露的内容。这对儿童的情感健康和心理发展可能产生的不利影响,凸显了实施强大机制来检测暴力和裸露内容的重要性。检测视频中的此类异常是一个众所周知的计算机视觉问题,在监控系统、犯罪预防和内容审核等其他现实世界应用中也很有用。获取视频中帧级别的异常标注既昂贵又耗时。因此,弱监督视频异常检测(WS-VAD)已成为一个重要的研究领域。WS-VAD专注于仅基于视频级别的二元标签来学习暴力和裸露等异常事件。在这种方法中,如果未检测到任何异常事件,则视频被归类为正常;相反,如果存在任何形式的异常事件(如暴力或裸露),则视频被归类为异常。WS-VAD方法通常采用多实例学习(MIL)[17]进行模型训练。在这里,正常视频被视为没有异常片段的负包,而异常视频被视为包含一个或多个异常片段的正包。通过优化MIL损失来训练异常评估函数,以确保正包的异常值高于负(正常)包的异常值。
在多实例学习(MIL)的基础上,近年来研究人员提出了多种弱监督视频异常检测(WS-VAD)方法,这些方法分为单模态(即基于视频的方法[10, 13, 28–30, 34, 35])和多模态[1, 19, 21, 36–38, 40]两类。与单模态方法相比,多模态方法展现出了更有前景的结果,它们通过联合学习音频和视觉表征,利用不同模态的互补信息来提升性能。尽管多模态方法表现出良好的性能,但它们面临两个主要挑战:1)在融合音视频特征时存在模态信息不平衡的问题;2)对正常特征和异常特征的区分不一致。最近,Peng等人[21]发现,模态不平衡问题主要源于现实场景中音频信号存在噪声。为解决这一问题,他们提出听觉信息在异常检测中的作用不如视觉线索重要,因此降低了音频特征的优先级。然而,当音频数据与视觉数据同样关键时,这种方法就需要修正。针对另一个问题,即正常特征与异常特征区分不一致的问题,先前的研究采用了图表示学习,将每个实例视为图中的一个节点。但这些方法仍然难以对两者进行准确区分。
在本研究中,我们提出了一个新的框架来应对这些挑战。我们引入了一种名为跨模态融合适配器(CFA)的新型融合模块,以解决模态信息不平衡的问题。它通过优先考虑音频特征相对于视觉模态的重要性,动态调整每种模态的影响。这一选择过程确保只利用那些对视觉学习至关重要的相关音频特征。通过适应性地选择与视觉模态相关的最合适特征,我们的方法通过整合相关音频特征来增强视觉特征学习。此外,我们还引入了一种基于双曲图卷积网络的双曲洛伦兹图注意力(HLGAtt)机制,以保持对正常特征和异常特征的一致区分。该机制在双曲空间中运行,通过时空特征学习捕捉正常表征与异常表征之间的层次关系,从而有助于区分正常特征和异常特征。

图1. 我们提出的方法与现有的基于视频的方法以及基于音视频的融合方法[21, 36]在XD-Violence数据集的测试视频上的对比分析。
所提出的模型能准确识别异常事件,在暴力和裸露检测任务上的表现优于现有的最先进(SOTA)方法。图1展示了从XD-Violence数据集的一些暴力和正常实例中获得的异常分数分析,并将其与多种方法进行了比较,如仅基于视频的方法[36]、Concate融合方法[36]、Detour融合方法[21]等。图1表明,与其他方法相比,所提出的模型能更准确地识别异常。我们将本文的贡献总结如下:
• 我们提出了一种新的弱监督视频异常检测(WS-VAD)框架,以解决音视频模态信息的不平衡问题,并有效区分异常特征与正常特征,从而能够准确检测出暴力、裸露等异常事件。
• 为解决模态信息不平衡问题,我们引入了一种名为跨模态融合适配器(CFA)的新型融合模块,该模块通过动态调节每种模态的贡献,帮助所提出的框架有效促进多模态交互。
• 我们引入了一种名为双曲洛伦兹图注意力(HLGAtt)的新型注意力机制,以捕捉正常表征与异常表征之间的层次关系,从而增强特征分离效果。
2. Related Works
2.1. Violence Detection Works
早期,已有少数基于无监督学习的方法[14, 25]被提出用于暴力检测。这些方法专注于单类分类,通过学习正常模式,并通过识别与正常模式的偏差来发现异常。然而,这些方法并不适用于复杂环境,且由于训练过程中异常视频数据的可获得性有限,它们往往难以发挥作用。
近年来,弱监督视频异常检测(WS-VAD)方法[13, 28, 36, 37, 40]被提出,这些方法利用视频级标签,相较于无监督视频异常检测方法取得了更有前景的结果。已有一些基于视频的弱监督视频异常检测方法[10, 13, 28–30, 34, 35]被提出,旨在提高暴力事件的检测精度。然而,这些方法忽略了音频信息和跨模态交互,限制了暴力预测的效果。为解决这一问题,Wu等人[36]引入了一个名为XD-Violence的大规模音视频数据集,并建立了音视频活动的基准。此后,许多多模态方法[1, 19, 21, 36–38, 40]被提出,其性能优于基于视频的弱监督视频异常检测方法。最近,Peng等人[21]提出了一种音视频数据融合机制,并引入了一种基于双曲图卷积网络的模型,通过在双曲空间中学习嵌入来有效捕捉语义差异。最近,Zhou等人[40]提出了一种带有不确定性调节的双记忆单元模块,着重学习异常数据和正常数据的表征。Salem等人[1]引入了一种新版本的多实例学习(MIL),通过使用边际损失来避免排序损失的缺点。
尽管这些方法取得了令人看好的结果,但其效果受到音视频特征融合不平衡的制约。此外,它们难以稳定区分正常特征与异常特征,这限制了检测精度。本文针对这些问题,提出了一种新的多模态框架,能更准确地检测暴力事件。与近期的多模态方法[21, 38, 40]不同,我们提出了一种带调制机制的新型跨模态融合方法,以自适应地学习并融合音频模态与相关视觉特征。此外,我们引入了基于洛伦兹注意力的双曲图机制,用于学习正常特征与异常特征之间的层次关系,并对它们进行有效区分。
2.2. Nudity Detection Works
在基于视频的裸露检测中,研究人员设计了多种方法来解决识别露骨内容的任务。一种常见策略是检测视频帧中的肤色[5, 9, 12, 22]。Samal等人[26]提出了一种模型,将注意力启用池化与基于Swin transformer的YOLOv3架构相结合,用于图像和视频中的淫秽内容检测。Jin等人[8]采用弱监督多实例学习方法,生成一组尺寸适当的区域,仅需最少的标注,以基于局部区域检测私密身体部位。Wang等人[15]将注意力门控机制与深度网络相结合,证明了其在性能提升方面的有效性。已有多项研究提出了联合考虑局部和全局上下文的深度学习架构[18, 33]。Utsav等人[27]提出了一种基于域适应的方法,用于过滤流视频中的成人内容。Tran等人[31]提出了一种基于伪标签的额外训练方法,使用Mask RCNN进行性对象检测。
然而,上述方法要么侧重于基于图像的方法,要么采用单模态方法;而基于音视频的方法尚未得到广泛探索。本文旨在通过利用音视频数据来填补这一空白,以提高视频中裸露内容的检测精度。
3. Methodology
3.1. Problem Statement
给定一组包含N个视频的集合X = {Xᵢ}ⁿᵢ₌₁,以及相应的视频级真实标签Y = {Yᵢ}ⁿᵢ₌₁ ∈ {1, 0},其中Yᵢ = 1表示视频中存在任何异常事件,而Yᵢ = 0表示不存在任何异常事件。我们的目标是通过弱监督方式准确检测视频中的暴力和裸露等异常事件。具体而言,每个视频Xᵢ首先被分割为基于16帧的T个非重叠多模态片段(M = {Mᵢᵛ, Mᵢᴬ}ᵀᵢ₌₁),这些片段通过预训练的CNN网络处理,以提取相应的视觉特征Fᵥ ∈ ℝᵀˣᴰᵛ和音频特征Fᴬ ∈ ℝᵀˣᴰᴬ,其中Dᵥ和Dᴬ分别表示视频和音频模态的特征维度。这里,Mᵢᵛ和Mᵢᴬ分别表示视频片段和音频片段。这些提取出的视觉和音频特征随后被输入到所提出的框架中,以判断输入视频是否包含任何异常事件。
为了准确识别异常事件,我们提出了一种新框架(如图2所示),其中引入了新颖的跨模态融合模块和双曲洛伦兹图注意力机制。这些模块的详细信息将在后续小节中阐述。
图2. 所提框架概述。该框架以从预训练编码器网络中提取的音频和视觉特征作为输入,这些特征通过所提出的跨模态融合适配器(CFA)模块进一步融合,以有效学习多模态交互;随后通过引入的双曲洛伦兹图注意力(HLGAtt)机制捕捉视觉和音频表征之间的层次关系,确保在训练过程中对正常特征和异常特征的区分具有一致性;最后,将输出特征输入双曲分类器,以预测每个实例的异常事件。
3.2. Cross-modal Fusion Adapter (CFA)
跨模态融合适配器(CFA)模块由基于前缀调优的瓶颈注意力机制和调制机制组成。基于前缀调优的瓶颈注意力机制有助于实现音频和视觉模态之间高效的多模态交互。调制机制在融合过程中动态调节每种模态的贡献,同时考虑音频特征对视觉模态的重要性。前缀调优瓶颈注意力机制:该机制通过前缀调优操作将学习到的表征与初始化参数相结合,从而将先验知识融入特征转换过程。具体而言,该过程涉及将从音频特征FAF_{A}FA中获得的键(K)和值(V)分别与前缀 PkP_{k}Pk和PvP_{v}Pv进行拼接,得到前缀调优后的键KpK_{p}Kp和值VpV_{p}Vp。参数PkP_{k}Pk和PvP_{v}Pv被初始化为维度为RB×DA×Dp\mathbb{R}^{B ×D_{A} ×D_{p}}RB×DA×Dp的零矩阵,其中B、DAD_{A}DA和DpD_{p}Dp分别表示批量大小、音频特征维度和前缀维度。
这些经过前缀调优的键KpK_{p}Kp和值VpV_{p}Vp,连同查询向量 QQQ(即视觉特征FVF_{V}FV),随后被传入跨模态多头注意力模块[23]。该模块实现了音频模态的前缀调优特征与视觉模态特征之间的交互,使它们能够有选择地、结合上下文聚焦于每种模态的相关信息。在此过程中,注意力分数是基于查询向量、前缀调优后的键和值计算得出的。跨模态多头注意力模块函数(即fCMAf_{CMA}fCMA)的数学表达式如下:
FAtt=fCMA(Q,Kp,Vp)=Softmax(Q⋅KpTDKP)×Vp,F_{Att}=f_{CMA}\left(Q, K_{p}, V_{p}\right)=Softmax\left(\frac{Q \cdot K_{p}^{T}}{\sqrt{D_{K_{P}}}}\right) × V_{p},FAtt=fCMA(Q,Kp,Vp)=Softmax(DKPQ⋅KpT)×Vp,
其中,DKPD_{K_{P}}DKP表示键向量(KpK_{p}Kp)的维度。注意力特征FAttF_{Att}FAtt随后被传入瓶颈适配器模块。在这一阶段,瓶颈适配器在保留模态特定特征的同时,确保了模态之间的平滑交互。它由下采样全连接层(即fdownf_{down}fdown)、高斯误差线性单元(GELU)激活函数(即fGELUf_{GELU}fGELU)以及上采样全连接层(即fupf_{up}fup)组成。其数学表达式如下:
F^Att=fup(fGELU(fdown(FAtt))),(2) \hat{F}_{Att}=f_{up}\left(f_{GELU}\left(f_{down}\left(F_{Att}\right)\right)\right), (2) F^Att=fup(fGELU(fdown(FAtt))),(2)
这里,高斯误差线性单元(GELU)激活函数引入了非线性,使得复杂的特征转换成为可能。这种精心设计确保了适配器模块能有效地将输入特征调整为共享的瓶颈表征,从而促进具有上下文感知的融合。
调制机制:在提出的跨模态融合适配器(CFA)模块中,我们引入了调制因子,通过考虑音频特征相对于视觉模态的重要性,动态调整各个模态的影响。这一机制由一个可学习的调制函数实现,该函数作用于音频特征FAF_{A}FA,以选择对视觉模态重要的相关音频特征。得到的调制特征FModF_{Mod}FMod定义为:
FMod=fMF(FA)=σ(Wmod⋅FA).(3) F_{Mod}=f_{MF}\left(F_{A}\right)=\sigma\left(W_{mod} \cdot F_{A}\right) . (3) FMod=fMF(FA)=σ(Wmod⋅FA).(3)
这里,σ表示sigmoid激活函数,而WmodW_{mod}Wmod代表与调制函数相关的权重。sigmoid激活函数确保调制因子的取值范围在0到1之间,从而调节应用于融合表征的调制程度。
接下来,进行融合与优化处理:首先将调制特征与前缀调优瓶颈注意力机制的输出进行融合,然后通过全连接层对融合后的表征进行优化。该操作的数学表达式如下:
FFused=fFC(FV+(F^Att×FMod)).(4) F_{Fused}=f_{FC}\left(F_{V}+\left(\hat{F}_{Att} × F_{Mod}\right)\right) . (4) FFused=fFC(FV+(F^Att×FMod)).(4)
调制机制fMF()f_{MF}()fMF()会根据音频特征对视觉模态的重要性,对前缀调优瓶颈注意力机制的输出进行调整。通过融合与优化过程,最终的融合表征经过精心构建,能够捕捉到两种模态中最相关的信息,同时减少噪声并保留各模态的特定特征。
3.3. Hyperbolic Lorentzian Graph Attention (HLGAtt) Mechanism
在所提出的框架中,我们引入了一种基于新型注意力机制(名为HLGAtt)的双曲图卷积网络。所提出的HLGAtt采用双曲洛伦兹图注意力机制,该机制通过学习分层曲率参数来捕捉输入图的层次结构,从而相较于现有的基于图的方法[21, 36]或基于Transformer的方法[40],增强了正常表征与异常表征之间的层次关系。它由双曲空间转换操作、针对并行节点的洛伦兹线性变换与增强模块处理,以及融合操作组成。
首先,我们使用指数函数将融合的音视频特征FFusedF_{Fused}FFused转换到双曲空间中。由此,我们得到转换后的融合特征图FH∈RT×2DHF_{H} \in \mathbb{R}^{T ×2 D_{H}}FH∈RT×2DH,其中T表示片段数量,DHD_{H}DH表示双曲维度。
最近,Zhang等人[39]提出了一种双曲图注意力机制,该机制利用并行分支处理在各个分支中学习不同的特征和模式以用于预测任务。受此[39]启发,我们在两个并行分支(即节点A和节点B)上处理转换后的双曲特征图,以便从输入特征图中学习特定模式。分离分支可确保具有相似特征的特征被导向其各自的节点。这使得每个分支都能学习正常特征和异常特征的独特属性,从而能够更精确地对它们进行区分。
转换后的双曲特征图通过每个节点中的洛伦兹线性变换与增强模块。在此,我们采用洛伦兹线性变换[4, 21]进行特征转换,并利用所提出的增强机制进一步增强其转换后的时间和空间特征。在洛伦兹线性变换中,我们首先构建邻接矩阵A∈RT×TA \in \mathbb{R}^{T ×T}A∈RT×T以捕捉双曲特征的相似性。其中,每个元素AijA_{ij}Aij的计算方式如下:
Aij=fsim(FH,i,FH,j)=Softmax(exp(−dL(FH,i,FH,j)), \begin{aligned} A_{ij} & =f_{sim}\left(F_{H,i}, F_{H,j}\right) \\ & =Softmax\left(exp \left(-d_{L}\left(F_{H,i}, F_{H,j}\right)\right),\right. \end{aligned} Aij=fsim(FH,i,FH,j)=Softmax(exp(−dL(FH,i,FH,j)),
式中,fsimf_{sim}fsim表示双曲特征相似性度量,它基于洛伦兹固有距离dLd_{L}dL评估片段i和j的相似程度。指数函数和Softmax函数的使用是为了保持非负性,并将A的值限制在[0, 1]范围内。
接下来,我们引入双曲洛伦兹线性变换(即fHL()f_{HL}()fHL()),随后进行邻域双曲聚合操作[24]以实现特征转换。第 l 层第 i 个片段的这些转换后的双曲特征(即zilz_{i}^{l}zil)可表示为:
zil=FH,il=∑j=1TAijfHL(FH,il−1)−η∣∥∑k=1TAikfHL(FH,il−1)∥L∣,(6) z_{i}^{l}=F_{H, i}^{l}=\frac{\sum_{j=1}^{T} A_{i j} f_{H L}\left(F_{H, i}^{l-1}\right)}{\sqrt{-\eta}\left|\left\| \sum_{k=1}^{T} A_{i k} f_{H L}\left(F_{H, i}^{l-1}\right)\right\| _{\mathcal{L}}\right|}, (6) zil=FH,il=−η
∑k=1TAikfHL(FH,il−1)
L
∑j=1TAijfHL(FH,il−1),(6)
其中,η表示负曲率常数。
为了进一步增强这些转换后的特征 z ,我们基于时间和空间信息对其进行处理。输入向量 z[0] 的初始分量表示双曲空间内的时间维度[4]。该分量先经过sigmoid激活函数处理,再进行指数缩放和偏移操作。通过这一过程,为节点A和节点B计算出时间特征(即Tnode AT_{\text{node A}}Tnode A和Tnode BT_{\text{node B}}Tnode B),如下所示:
Tnode A=σ(znode A[0])×eγ+1.1Tnode B=σ(znode B[0])×eγ+1.1 \begin{aligned} & T_{\text{node A}}=\sigma\left(z_{\text{node A}}[0]\right) × e^{\gamma}+1.1 \\ & T_{\text{node B}}=\sigma\left(z_{\text{node B}}[0]\right) × e^{\gamma}+1.1 \end{aligned} Tnode A=σ(znode A[0])×eγ+1.1Tnode B=σ(znode B[0])×eγ+1.1
其中,γ是一个可训练参数。输入向量 z 的其余元素可视为节点A和节点B的空间特征[4](即Snode AS_{\text{node A}}Snode A和Snode BS_{\text{node B}}Snode B)。其数学表达式如下:
Snode A=[znode A[1],znode A[2],...,znode A[n]]Snode B=[znode B[1],znode B[2],...,znode B[n]] \begin{aligned} & S_{\text{node A}}=\left[z_{\text{node A}}[1], z_{\text{node A}}[2], ..., z_{\text{node A}}[n]\right] \\ & S_{\text{node B}}=\left[z_{\text{node B}}[1], z_{\text{node B}}[2], ..., z_{\text{node B}}[n]\right] \end{aligned} Snode A=[znode A[1],znode A[2],...,znode A[n]]Snode B=[znode B[1],znode B[2],...,znode B[n]]
这些特征封装了双曲空间中复杂的空间特征,这对于捕捉图中的层次结构和关系至关重要。
为确保空间分量与双曲模型的一致性,我们计算了一个称为 r 的缩放因子。该因子考虑了每个节点的时间和空间复杂性,确保空间分量得到适当缩放以适配双曲空间。
Υnode A=Tnode A2−1∑i=1n(Snode A[i])2+ϵΥnode B=TnodeB 2−1∑i=1n(SnodeB [i])2+ϵ(9) \begin{aligned} & \Upsilon_{\text{node A}}=\frac{T_{\text{node A}}^{2}-1}{\sum_{i=1}^{n}\left(S_{\text{node A}}[i]\right)^{2}+\epsilon} \\ & \Upsilon_{\text{node B}}=\frac{T_{\text{nodeB }}^{2}-1}{\sum_{i=1}^{n}\left(S_{\text{nodeB }}[i]\right)^{2}+\epsilon} \end{aligned} \quad (9) Υnode A=∑i=1n(Snode A[i])2+ϵTnode A2−1Υnode B=∑i=1n(SnodeB [i])2+ϵTnodeB 2−1(9)
时间分量和经过缩放的空间分量被拼接起来,形成增强的特征向量(即F^HnodeA\hat{F}_{H}^{\text{nodeA}}F^HnodeA和F^HnodeB\hat{F}_{H}^{\text{nodeB}}F^HnodeB)。这一过程的数学表达式如下:
F^HnodeA=Concat[TnodeA,SnodeA×ΥnodeA]F^HnodeB=Concat[TnodeB,SnodeB×ΥnodeB](10) \begin{aligned} \hat{F}_{H}^{\text{nodeA}} &= \text{Concat}\left[ T_{\text{nodeA}}, S_{\text{nodeA}} \times \sqrt{\Upsilon_{\text{nodeA}}} \right] \\ \hat{F}_{H}^{\text{nodeB}} &= \text{Concat}\left[ T_{\text{nodeB}}, S_{\text{nodeB}} \times \sqrt{\Upsilon_{\text{nodeB}}} \right] \end{aligned} \quad (10) F^HnodeAF^HnodeB=Concat[TnodeA,SnodeA×ΥnodeA]=Concat[TnodeB,SnodeB×ΥnodeB](10)
节点A分支中的增强特征图经过Leaky-ReLU激活函数和Softmax归一化操作,以引入非线性并确保增强特征图的标准化。这能保证每个节点都学习到代表正常数据和异常数据的独特模式,同时促使模型从该节点(即节点A)处理的特征中学习到与其他节点(即节点B)不同的特征集。最后,节点A和节点B的增强特征图通过矩阵乘法进行注意力计算,随后经过ReLU激活函数生成输出特征图。所提出的HLGAtt模块的输出可表示为:
FHfinal=fReLU(F^HnodeA⋅F^HnodeB)(11) F_{H}^{\text{final}} = f_{\text{ReLU}} \left( \hat{F}_{H}^{\text{nodeA}} \cdot \hat{F}_{H}^{\text{nodeB}} \right) \quad (11) FHfinal=fReLU(F^HnodeA⋅F^HnodeB)(11)
3.4.Hyperbolic Classifie & Learning Objective
参考[21],我们同样使用双曲分类器,该分类器以HLGAtt模块的输出作为输入,预测正常事件和异常事件的置信度分数。最终分数Score可表示为:
Score=fHyp−cls(FHfinal)(12) Score =f_{Hyp-cls}\left(F_{H}^{final}\right) (12) Score=fHyp−cls(FHfinal)(12)
为了对所提出的模型进行端到端训练,我们采用了[20, 21, 28, 36]中使用的基于多实例学习(MIL)的学习目标,该目标计算视频内前k个最大预测分数的平均值。高分的正向预测表明存在异常事件,而k个最大的负向分数通常代表难样本。该学习目标函数可表示为:
LMIL=1N∑i=1N−Yi⋅log(Score‾).(13) L_{MIL}=\frac{1}{N} \sum_{i=1}^{N}-Y_{i} \cdot \log (\overline{Score}) . (13) LMIL=N1i=1∑N−Yi⋅log(Score).(13)
这里,Score‾\overline{\text{Score}}Score表示视频中前k个最大分数的平均值,YiY_{i}Yi代表二进制的视频级别标签。
4. Experiments and Results


5. Conclusion
本研究提出了一种新的WS-VAD框架,该框架包含跨模态融合适配器(CFA)模块和双曲洛伦兹图注意力(HLGAtt)模块,用于精确检测暴力、裸露等异常事件。CFA模块通过动态选择与相应视觉特征相关的音频特征,解决了模态信息不平衡问题,并有效促进了多模态交互。此外,HLGAtt模块捕捉正常表征与异常表征内部的层次关系,从而提高了区分正常特征与异常特征的准确性。通过大量实验和消融研究表明,所提出的模型性能优于现有的暴力和裸露检测方法。
火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。
更多推荐
所有评论(0)