AutoCutEditor 是一个基于 Whisper 与 FFmpeg 构建的本地音视频编辑模块,通过 Gradio 图形界面实现视频字幕识别、静音段裁剪与结果导出的完整流程。系统支持多语言转写、字幕分段编辑与导出参数配置,适合进行精细化内容筛选与短视频裁剪任务。

本文聚焦 AutoCutEditor 模块的核心功能与界面分区,解析其在识别模型配置、字幕处理与视频导出中的逻辑路径,帮助自学者理解其自动识别与智能剪辑的工作原理及部署流程。

操作使用

进入软件后在 整合包 里可以直接搜索 AutoCutEditor 进入该模块。

在这里插入图片描述
点击【下载选项卡】可获取完整项目整合包的下载地址,或直接使用下方链接下载。将文件保存至项目目录下后,点击解压按钮,等待解压完成即可开始使用。

- 说明
源码使用教程 基于AutoCut实现在文档中按照片段剪辑视频
基于AutoEditor一键预处理音视频无声片段
整合包下载地址 AutoCutEditor基于音频快速裁剪

项目脚本配置

通过 Gradio 或其他本地可视化工具提供图形化界面,用户可上传视频与音频并实时查看唇形同步效果,适合在本地测试与调整模型效果。只需运行脚本,待界面加载完成后即可在浏览器中访问操作界面,无需手动配置环境或命令行调用。

脚本名称 功能说明
WebUI启动!.bat 启动 Web 可视化界面,提供视频快速裁剪操作入口

应用示例

基于 Gradio 构建的音视频字幕识别与编辑平台,核心功能围绕 Whisper 模型的音频转写能力展开,配合 FFmpeg 等组件实现完整的视频字幕处理流程。用户可以从本地导入视频,实时预览画面,并通过灵活的参数设置控制识别精度、字幕长度、静音过滤等细节。系统支持自动语言识别或手动指定语言,同时提供了对字幕的精准分段、时间轴展示与编辑操作。字幕识别完成后,用户可对结果进行选择、修改、清理,并将所需内容导出为常见字幕格式或重新编码后的视频文件。

在这里插入图片描述

视频预览模块

该模块用于预览加载的视频内容,帮助用户可视化识别与字幕同步情况。可以直接播放、暂停视频,也可以看到字幕生成的位置是否与画面匹配。

功能项 描述
视频播放器 播放、暂停、跳转视频内容
画面预览 实时显示识别的视频画面
音频同步 视觉与字幕同步对比校验

参数设置模块

这是设置 Whisper 模型和字幕处理逻辑的控制面板,允许用户根据性能需求和精度要求调整识别细节,对最终字幕切分、静音判断等影响很大。

功能项 描述
Whisper 模型选择 选择识别模型(如 small、medium、large 等)影响识别速度与准确性
语言识别模式 自动或指定语言,如 auto 表示自动识别
最大字符数限制 控制单条字幕的最大字数,避免过长影响可读性
识别间隔最大限制 限制字幕时间间隔,便于分句
静音帧过滤阈值(dB) 设置识别静音段的阈值,值越小越灵敏
静音段最小时长(秒) 忽略持续时间小于该值的静音段
附加参数(命令行参数) 允许手动添加 Whisper 执行参数,如 --debug--quiet
应用参数按钮 应用所有更改过的参数,更新识别逻辑

视频导入模块

这个模块用于加载本地视频,是字幕识别的起始点。用户通过文件路径选择视频并启动预处理和识别。

功能项 描述
选择视频文件输入框 输入或选择要处理的视频文件路径
开始识别按钮 启动 Whisper 模型对视频进行转写,生成字幕初稿

字幕编辑模块

这是字幕识别结果的展示与编辑区域。用户可以逐条查看字幕的时间轴、内容,勾选需要保留或修改的片段,也可以批量删除。

功能项 描述
字幕选择框 勾选单条字幕以便后续批量导出或处理
start/end 时间 显示每段字幕的起止时间,精确到毫秒
字幕内容文本 Whisper 模型自动识别出的字幕内容
全选/清除选择 快速选择或取消选择所有字幕

视频导出设置模块

用于配置字幕文件或视频导出的方式,结合 FFmpeg 工具对视频重新编码或输出字幕文件。

功能项 描述
字幕模式 输出字幕文件格式(如 .srt.vtt 等)
视频编码方式 保持原有视频编码(copy)或重新编码
FFmpeg 参数设置 自定义调用 FFmpeg 的参数(例如画质、封装格式)
音轨选择 多音轨视频中选择需要提取的那一轨

导出任务与状态模块

展示导出任务的队列和状态信息,确保用户能够看到导出进度或结果。也可以取消任务或重新处理。

功能项 描述
导出任务列表 显示所有已排队的导出任务
导出按钮 开始将字幕或视频输出为指定格式
状态显示区域 显示导出状态,例如处理中、成功、失败等

底栏信息区

提供开发者信息、Gradio 和工具版本号,通常用于追踪问题或查看开源许可。

功能项 描述
项目信息链接 链接到项目的 GitHub、文档或开源协议页面
工具版本显示 显示 Gradio 前端及后端插件版本号

总结

AutoCutEditor 模块围绕 Whisper 模型的语音识别能力构建剪辑逻辑,结合 FFmpeg 实现音视频处理与字幕封装操作,前端通过 Gradio 实现模块化界面交互,涵盖视频导入、字幕生成、内容编辑与导出控制等环节。系统支持字幕分段校对、静音识别与手动调参,适合自定义音频分析与内容抽取需求,结构清晰、操作直观。

当前功能尚未支持实时音频波形预览与多轨处理,对剪辑精准度与字幕语义分段仍依赖手动校验。若重新设计,可引入时间轴交互与波形缩放功能,提供音频可视化对齐与实时识别反馈,后端则集成静音检测与语义切句算法,提升自动裁剪智能度与操作效率。

Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐