Whisper命令行调用参数简析（20240930版本）

众所周知，Whisper也已经算一个老牌的语音识别，转录字幕的功臣了。

HIRSHDZ327

1875人浏览 · 2025-04-07 20:35:46

HIRSHDZ327 · 2025-04-07 20:35:46 发布

众所周知，Whisper也已经算一个老牌的语音识别，转录字幕的功臣了。
在这里插入图片描述
以下是最近版本（v20240930）的参数简析：

参数列举如下：

  -h, --help 					显示这则帮助信息并退出whisper

  --model MODEL					需要使用的whisper模型名称（默认turbo）

目前模型有如下几个：

tiny、small、base、medium、large-v1、large-v2、large-v3、large-v3-turbo（也即turbo）

  --model_dir MODEL_DIR			保存模型文件的路径，默认为~/.cache/whisper

这个路径最好自行选取，然后将此路径加入系统变量，变量名为"WHISPER_MODEL_DIR"

  --device DEVICE				指定要使用PyTorch推理的设备（默认Cuda）

  --output_dir OUTPUT_DIR, -o OUTPUT_DIR
  								指定输出文件的文件夹

  --output_format {txt,vtt,srt,tsv,json,all}, -f {txt,vtt,srt,tsv,json,all}
  								输出文件的格式，如果没有特别指定，所有可以生成的格式均会输出一个文件（默认为所有文件格式）

  --verbose VERBOSE				是否在命令行打印出进度和调试信息（默认为True）

  --task {transcribe,translate}	
  								是否执行X->X语音识别（转录），或者X->英语翻译（转译）（默认为转录）

  --language					音频中的语音语种，若无指定则自动检测

支持的语言有：

af,am,ar,as,az,
ba,be,bg,bn,bo,br,bs,
ca,cs,cy,
da,de,
el,en,es,et,eu,
fa,fi,fo,fr,
gl,gu,
ha,haw,he,hi,hr,ht,hu,hy,
id,is,it,
ja,jw,
ka,kk,km,kn,ko,
la,lb,ln,lo,lt,lv,
mg,mi,mk,ml,mn,mr,ms,mt,my,
ne,nl,nn,no,
oc,
pa,pl,ps,pt,
ro,ru,
sa,sd,si,sk,sl,sn,so,sq,sr,su,sv,sw,
ta,te,tg,th,tk,tl,tr,tt,
uk,ur,uz,
vi,
yi,yo,yue,
zh,

以下为语种全称：（部分与有缩写的重合）
Afrikaans,Albanian,Amharic,Arabic,Armenian,Assamese,Azerbaijani,
Bashkir,Basque,Belarusian,Bengali,Bosnian,Breton,Bulgarian,Burmese,
Cantonese,Castilian,Catalan,Chinese,Croatian,Czech,Danish,Dutch,
English,Estonian,Faroese,Finnish,Flemish,French,Galician,Georgian,
German,Greek,Gujarati,Haitian,Haitian Creole,Hausa,Hawaiian,Hebrew,Hindi,Hungarian,Icelandic,Indonesian,
Italian,Japanese,Javanese,Kannada,Kazakh,Khmer,Korean,Lao,Latin,
Latvian,Letzeburgesch,Lingala,Lithuanian,Luxembourgish,
Macedonian,Malagasy,Malay,Malayalam,Maltese,Mandarin,Maori,Marathi,
Moldavian,Moldovan,Mongolian,Myanmar,Nepali,Norwegian,Nynorsk,
Occitan,Panjabi,Pashto,Persian,Polish,Portuguese,Punjabi,Pushto,
Romanian,Russian,Sanskrit,Serbian,Shona,Sindhi,Sinhala,Sinhalese,
Slovak,Slovenian,Somali,Spanish,Sundanese,Swahili,Swedish,
Tagalog,Tajik,Tamil,Tatar,Telugu,Thai,Tibetan,Turkish,Turkmen,
Ukrainian,Urdu,Uzbek,Valencian,Vietnamese,Welsh,Yiddish,Yoruba

南非荷兰语，阿尔巴尼亚语，阿姆哈拉语，阿拉伯语，亚美尼亚语，阿萨姆语，阿塞拜疆语，
巴什基尔语，巴斯克语，白俄罗斯语，孟加拉语，波斯尼亚语，布列塔尼语，保加利亚语，缅甸语，
粤语，卡斯蒂利亚语，加泰罗尼亚语，中文，克罗地亚语，捷克语，丹麦语，荷兰语，
英语，爱沙尼亚语，法罗语，芬兰语，弗拉芒语，法语，加利西亚语，格鲁吉亚语，
德语、希腊语、古吉拉特语、海地克里奥尔语
豪萨语、夏威夷语、希伯来语、印地语、匈牙利语、冰岛语、印度尼西亚语、
意大利语、日语、爪哇语、卡纳达语、哈萨克语、高棉语、朝鲜语、老挝语、拉丁语、
拉脱维亚语、Letzeburgesch语、林加拉语、立陶宛语、卢森堡语、
马其顿语、马达加斯加语、马来语、马拉雅拉姆语、马耳他语、普通话、毛利语、马拉地语、
摩尔多瓦语、摩尔多瓦人、蒙古语、缅甸语、尼泊尔语、挪威语、尼诺斯克语、
奥克西坦语、潘贾比语、普什图语、波斯语、波兰语、葡萄牙语、旁遮普语、普什托语、
罗马尼亚语、俄语、梵语、塞尔维亚语、绍纳语、信德语、僧伽罗语、僧伽罗语、
斯洛伐克语、斯洛文尼亚语、索马里语、西班牙语、巽他语、斯瓦希里语、瑞典语、
他加禄语、塔吉克语、泰米尔语、鞑靼语、泰卢固语、泰语、藏语、土耳其语、土库曼语、
乌克兰语、乌尔都语、乌兹别克语、巴伦西亚语、越南语、威尔士语、意第绪语、约鲁巴语

  --temperature TEMPERATURE		控制生成文本采样的随机性（默认值为0）

  --best_of BEST_OF				当temperature>0时，生成多个候选并选择最优（默认为5）

  --beam_size BEAM_SIZE			束搜索（beam search）的宽度，仅当temperature=0 时生效。（默认为5）——提升准确性，但会降低转录速度

  --patience PATIENCE			在束解析中可选的耐心值，如https://arxiv.org/abs/2204.05424,默认（1.0）版等同于常规的束搜索（默认为None）

  --length_penalty LENGTH_PENALTY	
  								可选的token长度的惩罚系数（alpha），如https://arxiv.org/abs/1609.08144,使用简单的默认长度正态化（默认为None）

  --suppress_tokens SUPPRESS_TOKENS
  								逗号分隔的 token ID 列表，用于在采样过程中屏蔽指定内容；'-1' 将屏蔽大多数特殊字符（常见标点符号除外）（默认值为-1）

  --initial_prompt INITIAL_PROMPT
  								可选文本，作为初始窗口的提示信息。（默认值为None

  --condition_on_previous_text CONDITION_ON_PREVIOUS_TEXT
  								若为 True，则将模型的上一段输出作为下一窗口的提示信息；禁用此选项可能导致不同窗口间的文本不一致，但能减少模型陷入错误循环的风险。（默认值为True）

  --fp16 FP16					是否使用 fp16（半精度浮点数）进行推理；默认启用（默认值为True）

  --temperature_increment_on_fallback TEMPERATURE_INCREMENT_ON_FALLBACK
  								当解析结果未达到以下任一阈值时，回退（fallback）过程中提高的 temperature 值（默认值为0.2）

  --compression_ratio_threshold COMPRESSION_RATIO_THRESHOLD
  								若 gzip 压缩比高于此值，则判定解析失败（默认值为2.4）

  --logprob_threshold LOGPROB_THRESHOLD
  								如果平均对数概率低于此值，则判定解析失败（默认值为-1.0）

  --no_speech_threshold NO_SPEECH_THRESHOLD
  								若 <|nospeech|> token 的概率高于此值，且解析因 logprob_threshold 而失败，则将该片段判定为静音（默认值为0.6）。

  --word_timestamps WORD_TIMESTAMPS
  								（实验性功能）提取单词级时间戳并基于此优化结果（默认值为False）

  --prepend_punctuations PREPEND_PUNCTUATIONS
  								若 word_timestamps为True，则将这些标点符号与后一个单词合并（默认的标点有："'“¿([{-））

  --append_punctuations APPEND_PUNCTUATIONS
  								若word_timestamps为True ，则将这些标点符号与前一个单词合并（默认的标点有："'.。,，!！?？:：”)]}、）

  --highlight_words HIGHLIGHT_WORDS
  								（需配置 --word_timestamps 参数为 True ）在 SRT 和 VTT 字幕中为每个单词添加下划线标记（默认值为False）

  --max_line_width MAX_LINE_WIDTH
  								（需配置 --word_timestamps 参数为 True ）单行最大字符数限制，超出时自动换行（默认值为None，即不限制）

  --max_line_count MAX_LINE_COUNT
  								（需配置 --word_timestamps 参数为 True ）一段文字的最大行数限制，超出自动跳到下一段时间戳（默认值为None）

  --max_words_per_line MAX_WORDS_PER_LINE
  								（需配置 --word_timestamps 参数为 True，与 --max_line_width 不能共用，只能同时使用者两者中的一个）每个分段的最大单词数限制（默认值None，即不限制）

  --threads THREADS				Torch在CPU推理时使用的线程数（该参数会覆盖其他相关设置MKL_NUM_THREADS/OMP_NUM_THREADS）

  --clip_timestamps CLIP_TIMESTAMPS
  								逗号分隔的片段时间戳列表（格式：start,end,start,end,...，单位为秒），未指定结束时间时默认处理至文件末尾（默认值为0）

  --hallucination_silence_threshold HALLUCINATION_SILENCE_THRESHOLD
  								（需配置 --word_timestamps 参数为 True ）当检测到可能存在幻觉（hallucination）现象时（也即重复出现相同转录结果），跳过超过此阈值时长的静音段（单位：秒）（默认值为None，也即不跳过）

火山引擎 ADG 社区

火山引擎开发者社区是火山引擎打造的AI技术生态平台，聚焦Agent与大模型开发，提供豆包系列模型（图像/视频/视觉）、智能分析与会话工具，并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长，新用户可领50万Tokens权益，助力构建智能应用。

更多推荐

OpenClaw 本地部署完整指南（Windows + Ollama）

本文档基于实际部署经验编写，旨在帮助你在 Windows 系统上从零开始搭建 OpenClaw，并连接本地 Ollama 模型（如 Qwen2.5 或 Qwen3），使其具备完整的智能体能力。文档包含了所有关键步骤以及常见问题的解决方案。

火山引擎 ADG 社区

OpenClaw 小白安装指南（Windows版）

（类似一个能自动执行任务的AI机器人），不是游戏。API Key只保存在你本地电脑的加密文件里，不会上传到任何地方。访问：https://github.com/miaoxworld/openclaw-manager/releases。: 一键安装脚本会自动安装Node.js 22+，如果失败，手动下载安装：https://nodejs.org/：在PowerShell中，鼠标右键就是粘贴，不需要按

火山引擎 ADG 社区

飞书 × OpenClaw 接入指南：不用服务器，用长连接把机器人跑起来

这个项目存在的意义，就是把“飞书接 OpenClaw”这件事，整理成一套的配置入口，并把官方文档没覆盖到的坑集中写成排查清单。先说清楚它的角色：OpenClaw 现在已经内置官方飞书插件 @openclaw/feishu，功能更完整、维护也更及时。，说明飞书 + AI 的接入已经走通。另外，仓库也推荐了一个新项目：把 OpenClaw 变成“多 Agent 团队”，用多个 Agent 分工，Sla