【大家的项目】sensevoice的cli工具,支持英文、中文、粤以、日韩的语音识别
sensevoice是阿里开源的中日韩+粤语的语音识别模型,主流都是用python实现。自动从huggingface.co 下载模型(也支持hf-mirrors.com)采用silero-vad 做语音分割,比较精确。全静态链接,直接打包到自己的程序里去调用。支持mp3/ogg/wav 多声道转录。性能比python版本略好。
·
sensevoice是阿里开源的中日韩+粤语的语音识别模型,主流都是用python实现
我用onnxruntime写了一个rust版本:
-
自动从huggingface.co 下载模型(也支持hf-mirrors.com)
-
支持mp3/ogg/wav 多声道转录
-
性能比python版本略好
-
采用silero-vad 做语音分割,比较精确
-
全静态链接,直接打包到自己的程序里去调用
使用很简单:
sensevoice-cli path/to/audio.wav
输出:
[
{
"channel": 0,
"duration_sec": 5.592,
"rtf": 0.019642152,
"segments": [
{
"start_sec": 0.77,
"end_sec": 5.31,
"text": "开放时间早上九点至下午五点",
"tags": []
}
]
}
]
火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。
更多推荐
所有评论(0)