⚡ 这个问题问得好!

答案是:ffmpeg 本身不能直接把语音转文字
👉 ffmpeg 的作用是 音视频处理工具(解码、转码、剪切、提取音轨等),它不带语音识别功能。

你要做 语音转文字 时,一般流程是:

  1. 用 ffmpeg 把视频里的音频提取出来(比如转成 wav 格式)。

  2. 再用语音识别引擎(Google SpeechRecognition / Whisper / Vosk / 云服务 API)把音频转文字。


示例:用 ffmpeg + Whisper

ffmpeg -i input.mp4 -vn -ar 16000 -ac 1 output.wav

然后用 Python + Whisper:

import whisper

model = whisper.load_model("base")
result = model.transcribe("output.wav", language="zh")
print(result["text"])

这样就能拿到中文文本。


如果你想“一步到位”

虽然 ffmpeg 不能直接输出文字,但是有些工具把 ffmpeg + Whisper 封装在一起,做到类似:

whisper input.mp4 --language Chinese --task transcribe

直接输出 input.srtinput.txt


✅ 结论:

  • ffmpeg:只能负责“把视频变成音频”。

  • 语音识别(Whisper / Google / Vosk / 云API):负责“把音频变成文字”。

  • 两个配合起来 → 就能实现“视频转文字”。

Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐