【大家的项目】sensevoice的cli工具，支持英文、中文、粤以、日韩的语音识别

Rust语言中文社区

178人浏览 · 2025-11-12 22:00:29

Rust语言中文社区 · 2025-11-12 22:00:29 发布

sensevoice是阿里开源的中日韩+粤语的语音识别模型，主流都是用python实现

我用onnxruntime写了一个rust版本：

自动从huggingface.co 下载模型（也支持hf-mirrors.com)
支持mp3/ogg/wav 多声道转录
性能比python版本略好
采用silero-vad 做语音分割，比较精确
全静态链接，直接打包到自己的程序里去调用

使用很简单：

sensevoice-cli path/to/audio.wav

输出：

[
  {
    "channel": 0,
    "duration_sec": 5.592,
    "rtf": 0.019642152,
    "segments": [
      {
        "start_sec": 0.77,
        "end_sec": 5.31,
        "text": "开放时间早上九点至下午五点",
        "tags": []
      }
    ]
  }
]

智能体开发者社区

中国智能体开发者社区，聚焦智能体与大模型开发，提供前沿资讯、实用工具链、开源项目及行业案例。通过技术沙龙、开发者大赛等活动，促进经验交流与协作，助力开发者快速构建创新智能应用。

更多推荐

2026年7月最新ChatGPT Plus / Pro 与 Codex：当 AI Agent 最新5.6版本来袭，必须理解事务、幂等与补偿

ChatGPT 与 Codex 让 AI 更容易理解任务、生成代码和调用工具。但只要 AI 开始改变外部系统，错误就不再只是回答质量问题。它会变成状态一致性问题。一次超时，可能导致重复操作。一次重试，可能导致重复扣款。一次中断，可能留下半成品代码。一次补偿失败，可能让系统停留在未知状态。一次任务重放，可能把同一动作执行两遍。能不能自动完成任务能不能在失败、重试、中断和恢复过程中保持系统正确事务边界