“视频高光检测”是一个计算机视觉任务,通常用于从视频中识别出最具代表性、最精彩或最关键的片段,也叫 视频摘要、视频精华提取、视频精彩片段检测(Highlight Detection)

这个任务可以用在很多场景,比如:

  • 体育比赛精彩镜头提取、教学视频的关键知识点提取、用户生成内容(UGC)中的短视频自动剪辑、自动驾驶中异常事件定位、多模态内容推荐系统

自动检测哪些部分是高光部分 这就是精彩片段 

如何实现视频高光?

1. 视频预处理(帧级别)

  • 帧提取:每秒抽取 3~10 帧,用于后续分析;

  • 帧预处理:缩放、去噪、增强,提高特征质量;


🧠 2. 特征提取(图像/语义/音频/动作等)

  • 图像视觉特征:用 CNN(如 ResNet、Inception)提帧级特征;

  • 动作特征:用 3D CNN(如 I3D)或 SlowFast 提取时序动作;

  • 语义特征(如 CLIP):结合视频帧+文字描述;

  • 音频特征:如提取音量突变、节奏(用 MFCC 或 VGGish);

  • 多模态融合:图像 + 音频 + 字幕统一编码;


🧮 3. 高光评分(核心)

根据提取的特征,对每一段视频或每一帧打分,高分即为“高光”:

方法

描述

🔹 监督学习

使用标注高光视频段训练分类器(如 BiLSTM + FC,Transformer 等)

🔹 无监督方法

使用帧间变化强度、光流、注意力分布等做高光估计

🔹 排序模型

类似排名学习,训练“哪段比哪段更精彩”

🔹 多模态模型

如 HiST(CVPR 2022)用图像+字幕+音频打分融合


✂️ 4. 片段提取与后处理

  • 基于打分的片段剪辑(如保留最高分的 top-N%)

  • 连续帧合并:将临近高分帧合成一个片段

  • 去冗余:避免选中同一场景重复部分(这部分就是对打了高光的片段进行处理 将这些高的合为一个整体的片段 但是当然了这个里面是有多个高光片段的)

上面这个部分是我从chat那边粘过来的 就是知道大概是什么流程 那么对于帧的处理、特征提取都没什么说的 关键是如何认定是高光呢?哪些方法都用到了什么原理呢?

1.无监督 不需要人标注 

  • 帧间差异(视觉突变):高光往往在有激烈动作、画面跳变的地方;

  • 光流强度:运动变化大 → 可能是高光;

  • 熵/注意力集中度:高光部分视觉集中度高;

  • 聚类:视频帧做特征提取(CNN、CLIP等),用KMeans聚类,找出最不冗余、最“代表性”的帧 → 当作高光

视觉突变是啥意思?

画面发生很大的变化 比如场景切换(镜头突然切换到新地方)、对象快速移动(比如镜头突然跟拍)、颜色/亮度/结构突变(比如爆炸、闪光、特效)对于无监督就是会把这些打上高光 

人眼感受到的视觉突变通常是画面的快速变化,而模型判断是否发生突变,主要是通过连续帧之间像素、边缘或颜色分布的变化来实现的。这些突变属于时间维度上的变化,我们可以通过计算帧间像素差异、边缘图差值、直方图距离或特征空间距离等方式量化这种“突变”,这其中就涉及到了具体的数学计算。

那么时间视觉突变上如何体现呢?有帧间差分(计算两帧像素差异的绝对值求和) 光流变化(计算相邻帧的运动矢量场) 结构相似性(衡量两帧间的结构、亮度、对比度的变化)直方图差异(计算连续帧颜色/亮度直方图的距离)

然后其实还有空间视觉突变 我开始不太理解 我说这不也是看像素吗?这跟时间啥区别,原来是看的静态图像 我又说那这有啥意义 原来人家只是为了找到边缘处 先锁定可能发生变化的区域 然后再使用时间突变去看是不是发生变化了 大概就是这个意思 就是因为一整个图太冗余 所以锁定边缘区域

光流检测是啥意思?

什么是光流?就是描述图像中每个像素在“时间上是怎么移动的”方向和速度

举个例子就是行人在走 但是身后的建筑没变 那这个人的行走的方向和像素的变化(人的像素移动到哪里)就是光流方向 就像之前说的先定哪里是需要看的 再对这个部分进行光流检测 

然后我思考肯定是一个物体的整个像素进行移动 那么人在走 其实只针对于这个人来讲像素也在发生变化 那怎么判断这个像素是人的像素呢?然后我才知道光流是不识别物体的 只识别像素 后续的操作会将这些像素组合成一个物体(比如 聚类、结合空间信息、目标检测模型。这个后面再进行学习)

熵/注意力集中度是啥意思?

就是注意力集中度高 就是高光 那很显然一般都是看的越认真的地方越可能是高光 我开始还以为i欸要进行眼球追踪的 然后发现不是的 是用一个注意力热力图进行计算 那么注意力热力图是咋来的呢?这个我后面再写一篇文章来详细介绍

聚类是啥意思?

就是把视频帧进行分组 相似的放在一组 这样就能选出来一个代表帧 后续再进行其他操作 这样的作用是为了减少计算的

  • 剧烈运动 = 视觉吸引力
    ➜ 用光流、帧差、动作特征(如 I3D)来捕捉

  • 音频变化 = 情绪爆点
    ➜ 音量突然升高、节奏加快、尖锐声响、背景音乐变激烈

  • 视觉突变 = 场景或镜头切换
    ➜ 利用图像直方图、边缘变化、颜色变化检测变化点

上面这个 其实就是高光检测也是涉及到声音的 就比如声音突然变大了 尖锐声响等 那么声音是如何进行检测的呢?

声音高光检测

我接下来写个帖子专门写声音高光检测

视觉高光和声音高光一般会通过对齐时间轴的方法  

一般的步骤就是

  • 提取低层视觉 + 音频特征(无须标签)

  • 计算显著性得分/变化强度

  • 将得分高的片段作为高光候选

好的写完这篇 我接下来要写的是 关于聚类、声音高光检测、注意力热力图 如果大家喜欢的话欢迎关注我

Logo

中国智能体开发者社区,聚焦智能体与大模型开发,提供前沿资讯、实用工具链、开源项目及行业案例。通过技术沙龙、开发者大赛等活动,促进经验交流与协作,助力开发者快速构建创新智能应用。

更多推荐